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在 现实 生活 中 ， 受 多 种 指标 共同 作用 和 影响 的 现象 大 量 存在 。 当 变量 较 多 时 ， 变 
量 之 间 便 不 可 避免 地 存在 着 相关 性 ， 分 开 处 理 不 仅 会 丢失 很 多 信息 ， 往 往 也 不 容易 取 
得 好 的 研究 结论 。 多 元 统计 分 析 就 是 研究 多 个 随机 变量 之 间 相 互 依赖 关系 及 其 内 在 统 
计 规 律 的 一 门 学 科 。 

多 元 统计 分 析 也 称 多 变量 统计 分 析 ， 简 称 多 元 分 析 ， 是 统计 学 的 一 个 重要 分 支 ， 
也 是 近 三 四 十 年 迅速 发 展 的 一 个 分 支 。 随 着 计算 机 的 普及 和 软件 的 发 展 ， 以 及 信息 储 
存 手段 和 数据 信息 的 成 倍增 长 ， 多 元 分 析 的 方法 已 广泛 应 用 于 自然 科学 和 社会 科学 的 
各 个 领域 ， 其 在 国内 外 实际 应 用 中 卓有成效 。 现 已 证 明 多 元 分 析 方 法 是 处 理 多 维 数据 
不 可 缺少 的 重要 工具 ， 并 日 益 突显 其 魅力 。 

多 元 统计 分 析 是 以 概率 统计 这 门 数 学 科学 为 基础 ， 应 用 线性 代数 的 基本 原理 和 方 
法 ， 结 合计 算 机 对 实际 资料 和 信息 进行 收集 、 整 理 和 分 析 的 一 门 科 学 。 因 此 ， 它 的 原 
理 较 为 抽象 ， 对 学 生 的 数学 基础 要 求 也 较 高 ， 教 学 中 存在 着 大 量 的 数学 公式 、 数 学 符 
号 、 和 矩阵 运算 和 统计 计算 ， 必 须 借 助 于 现代 化 的 计算 工具 ， 本 书 正 是 基于 广泛 使 用 的 
统计 分 析 软 件 R 语言 进行 的 。 

R 语言 是 属于 GNU 系统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 ， 是 一 个 用 于 统 
计 计算 和 统计 制图 的 优秀 工具 。 在 目前 保护 知识 产权 的 大 环境 下 ， 开 发 和 利用 R i 
言 对 我 国 的 统计 事业 具有 非常 重大 的 现实 意义 。 

本 书 是 关于 R 语言 的 一 本 应 用 教材 。 由 于 主要 针对 本 科 生 和 研究 生 ， 本 书 将 重 
点 放 在 对 R 语言 的 工作 原理 的 解释 和 模型 建立 上 。R 语言 涉及 广泛 ， 因 此 对 于 学 生 
来 讲 ， 了 人 解 和 掌握 一 些 基 本 概念 及 原理 是 很 有 必要 的 ， 关 于 R 语言 的 基本 统计 分 析 
请 见 作 者 编写 的 《R 语言 统计 分 析 软 件 教 程 》 (2007) 。 在 打下 扎实 的 基础 后 ， 进 行 
更 深入 的 学 习 将 会 变 得 轻松 许多 。 本 着 深入 浅 出 的 宗旨 ， 本 书 将 配合 图 表 等 形式 ， 尽 
可 能 使 用 通俗 的 语言 ， 使 读者 容易 理解 而 又 不 失 细节 。 

多 元 统计 分 析 方 法 涉及 较为 复杂 的 数学 理论 ， 计 算 烦 琐 。 大 多 数 多 元 统计 方法 无 
法 用 手工 计算 ， 必 须 有 计算 机 和 统计 软件 的 支持 ， 因 此 在 写作 上 也 不 可 能 将 计算 步骤 
逐步 地 写 出 来 。 作 者 认为 ， 对 于 一 般 的 科技 工作 者 ， 重 要 的 不 在 于 理解 多 元 统计 方法 
的 数学 原理 ， 也 不 需要 完全 掌握 具体 的 计算 步 又， 而 是 要 了 解 多 元 统计 方法 的 分 析 目 
的 、 基 本 思想 、 分 析 逻 辑 、 应 用 条 件 和 结果 解释 。 所 以 这 部 分 读者 可 以 忽略 有 关 章 节 
中 数学 理论 和 具体 计算 过 程 的 介绍 ， 着 重 阅 读 每 种 方法 的 应 用 条 件 、 基 本 分 析 思 想 、 
实例 的 具体 应 用 和 结果 解释 。 

国内 目前 出 版 的 多 元 统计 分 析 专 著 不 是 很 多 ， 适 合 经 济 管理 类 学 生 使 用 的 教材 也 
较 少 。 本 书 的 编写 目的 是 提供 一 本 适合 财 、 经 、 管 类 院 校本 科 生 和 研究 生 使 用 的 参考 
书 、 教 材 和 软件 使 用 手册 。 多 元 统计 方法 越 来 越 成 为 各 个 专业 研究 生 进行 科学 研究 的 
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必要 技术 ， 统 计 软 件 也 越 来 越 成 为 各 个 专业 研究 生 进行 科学 研究 的 必 备 工具 ， 该 书 对 
提升 财 、 经 、 管 类 院 校 研究 生 的 学 术 研 究 水 平和 促进 他 们 开展 科研 项 目 工作 有 着 非常 
积极 的 作用 ， 并 可 作为 经 济 学 院 学 生 的 公共 必修 座 教 材 和 实习 手册 。 

本 书写 作 的 指导 思想 是 : 在 不 失 严 并 的 前 提 下 ， 努 力 突出 实际 案例 的 应 用 和 统计 
思想 的 渗透 ， 结 合 R 语言 ， 较 全 面 、 系 统 地 介绍 多 元 分 析 的 实用 方法 。 本 书 在 系统 
介绍 多 元 分 析 基 本 理论 和 方法 的 同时 ， 尽 量 结合 社会 、 经 济 、 目 然 科 学 等 领域 的 研究 
实例 ， 把 多 元 分 析 的 方法 与 实际 应 用 结合 起 来 ， 注 意 定性 分 析 与 定量 分 析 的 紧密 结 
合 ， 努 力 把 我 们 在 实践 中 应 用 多 元 分 析 的 经 验 和 体会 融 人 其中。 几乎 每 种 方法 都 强调 
它们 各 自 的 优 缺点 和 在 实际 运用 中 应 注意 的 问题 。 为 了 方便 读者 掌握 本 书 内容 ， 又 考 
虑 到 这 门 课程 的 应 用 性 和 实践 性 ， 在 每 章 后 面 都 设置 了 一 些 简 单 的 思考 练习 题 。 我 们 
鼓励 读者 自己 利用 一 些 实际 数据 去 实践 这 些 方 法 。 多 元 分 析 的 应 用 离 不 开 计 算 机 ， 本 
书 的 案例 主要 运用 迅速 兴起 的 R 语言 来 实现 。 本 书 一 个 显著 的 特点 是 在 介绍 每 种 方 
法 后 ,结合 实例 ， 概 要 地 介绍 了 R 语言 的 实际 操作 实现 过 程 。 

本 书 的 特色 和 创新 点 : 

(1) 原理 、 方 法 、 算 法 和 实例 分 析 相 结合 。 鉴 于 目前 计算 机 统计 分 析 软 件 已 是 
多 元 统计 分 析 应 用 中 不 可 缺少 的 工具 ， 本 书 特 别 注意 介绍 各 种 多 元 统计 的 算法 实现 ， 
使 得 给 出 的 算法 更 有 实用 价值 。 为 此 ， 我 们 在 论述 算法 思想 时 就 引进 易于 化 为 计算 步 
又 的 数学 式 子 和 符号 ， 并 在 计算 步骤 中 采用 了 R 语言 软件 。 

(2) 每 章 都 有 用 R 语言 开发 的 统计 软件 进行 的 综合 案例 分 析 。 本 书 在 讲 清楚 各 
种 方法 的 实际 背景 和 数学 思想 的 同时 ， 对 每 种 方法 都 给 出 具体 的 经 济 管理 实例 ， 并 结 
A R 语言 进行 案例 分 析 。 书 中 的 大 多 数 案例 都 是 作者 收集 的 最 新 实际 数据 。 

(3) 解决 统计 软件 用 于 统计 学 教学 和 科研 中 存在 的 问题 。 国 内 目前 缺乏 适合 开 
展 多 元 统计 分 析 教 学 科研 的 统计 分 析 软 件 ，SAS 、SPSS 等 国外 统计 软件 ， 一 是 没有 版 
权 ， 购 买 需要 昂贵 的 费用 ;二 是 使 用 复杂 ， 与 教科 书 内 容 设置 不 完全 一 致 ， 财 、 经 、 
管 类 学 生 和 研究 人 员 使 用 起 来 尤其 困难 。 于 是 ， 我 们 将 开放 的 R 语言 用 于 多 元 数据 
分 析 的 统计 软件 解决 了 这 个 问题 。 本 书 的 所 有 方法 都 可 用 R 语言 来 实现 ， 所 有 实例 
及 案例 都 可 用 其 分 析 。 书 中 的 所 有 结果 、 图 形 都 是 由 R 语言 给 出 的 。 高 质量 的 图 形 
和 方便 的 结果 输出 是 其 他 统计 软件 所 不 能 比拟 的 。 

(4) 研究 如 何 将 统计 软件 的 数据 处 理 与 统计 教学 相 结合 ， 形 成 一 套 完 整 的 教学 
与 科研 相 结 合 的 初 具 智能 化 的 多 媒体 统计 软件 。 在 教学 与 科研 一 体 化 的 功能 上 ， 在 数 
据 编 辑 、 统 计 分 析 、 统 计 设 计 、 统 计 绘图 和 统计 帮助 上 ， 充 分 体现 多 媒体 教学 的 特 
点 。 所 以 ， 本 书 也 可 以 用 作 计 算 机 实习 教材 。 

本 书 的 内 容 安排 吸收 了 国内 外 有 关 多 元 统计 分 析 论 著 的 特点 ， 在 章节 的 安排 上 遵 
循 由 浅 人 深 、 由 简 到 繁 的 原则 ， 对 多 元 线性 相关 和 回归 进行 了 较为 详细 的 介绍 ， 增 加 
了 一 些 广义 线性 模型 的 内 容 ， 同 时 附加 了 一 些 线性 代数 和 系 阵 运算 的 概念 。 书 中 的 主 
要 内 容 是 作者 根据 在 暨南 大 学 多 年 从 事 多 元 统计 分 析 课 程 教学 所 撰写 的 讲稿 修改 而 成 
的 。 许 多 新 理论 和 方法 还 在 不 断 完善 中 ， 因 时 间 的 限制 将 在 以 后 的 版 本 中 陆续 加 入 。 


由 于 本 书 软件 的 计算 结果 都 是 以 R 语言 为 后 台 的 ， 所 以 结果 是 可 以 信赖 的 。 

全 书 共 分 14 章 ， 主 要 内 容 有 : 多 元 数据 的 收集 和 整理 、 多 元 数据 的 直观 显示 、 
线性 与 非 线性 模型 及 广义 线性 模型 、 判 别 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 
对 应 分 析 、 典 型 相关 分 析 等 常见 的 主流 方法 。 本 书 还 参考 国内 外 大 量 文献 ， 系 统 地 介 
绍 了 这 些 年 在 经 济 管理 等 领域 应 用 颇 广 的 一 些 较 新 方法 ， 可 作为 统计 学 专业 本 科 生 和 
研究 生 的 多 元 分 析 课 程 教材 。 由 于 本 书 的 内 容 较 多 ， 教 师 在 选用 此 书 为 教材 时 可 以 灵 
活 选 讲 。 本 书 还 可 作为 非 统计 学 专业 研究 生 的 量化 分 析 教 材 。 根 据 作者 多 年 的 教学 实 
践 ， 本 书 讲授 60 课时 较为 合适 ， 若 有 计算 机 和 投影 设备 的 配合 ， 教 学 将 会 更 为 方便 
和 有 效 。 

本 书 由 作者 一 人 完成 ， 统 计 系 老师 尹 居 良 、 杨 广 仁 、 伐 雅文 、 注 志 宏 和 学 生 谢 泣 
春 、 刘 贤 、 李 萍 、 张 科 、 陈 旭 、 容 美 平 、 陈 光华 、 郑 辉 等 为 本 书 提供 了 一 些 有 用 的 帮 
助 ， 在 此 深 表 谢意 ! 

由 于 作者 的 知识 和 水 平 有 限 ， 书 中 难免 有 错误 和 不 足 之 处 ， 尽 请 读者 批评 指正 ! 
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tE: 本 书 可 作为 本 科 生 和 研究 生 多 元 统计 分 析 教 材 ， 其 中 «+ 本 科 生 可 不 讲 。 


1 多 元 统计 分 析 概 述 


【 目的 要 求 】 要 求学 生 了 解 多 元 统计 分 析 的 基本 内 容 及 应 用 领域 ， 并 掌握 一 些 基 本 概 
念 ; 对 统计 分 析 软 件 有 一 个 基本 认识 。 

【教学 内 容 】 多 元 统计 分 析 的 基本 内 容 ; 相关 的 补充 知识 和 将 要 涉及 的 计算 机 软件 
程序 。 


1.1 多 元 统计 分 析 的 历史 


在 统计 学 的 基本 内 容 中 ， 只 考虑 一 个 因素 或 几 个 因素 对 一 个 观测 指标 (BE) 的 影 
啊 大 小 的 问题 ， 称 为 一 元 统计 分 析 或 单 因 素 分 析 。 若 考虑 一 个 因素 或 几 个 因素 对 两 个 或 
两 个 以 上 观测 指标 〈 变 量 ) 的 影响 大 小 ， 或 者 多 个 观测 指标 (变量 ) 间 的 相互 关系 问 
题 ， 即 为 多 元 统计 分 析 。 多 元 统计 分 析 是 研究 客观 事物 中 多 个 指标 (变量 ) 间 相 互 依赖 
关系 及 统计 规律 的 数理 统计 学 分 支 之 一 。 

在 经 济 生活 中 ， 受 多 个 指标 〈 随 机 变量 ) 共同 作用 和 影响 的 现象 大 量 存 在 。 有 两 种 
方法 可 同时 对 多 个 随机 变量 的 观测 数据 进行 有 效 的 分 析 和 研究 。 一 种 方法 是 把 多 个 随机 
变量 分 开 分 析 ， 每 次 处 理 一 个 ， 逐 次 分 析 研 究 。 但 当 变量 较 多 时 ， 变 量 之 间 不 可 避免 地 
存在 着 相关 性 ， 而 且 分 开 处 理 不 仅 会 丢失 很 多 信息 ， 往 往 也 不 容易 取得 好 的 研究 结论 。 
男 一 种 方法 是 同时 进行 分 析 研 究 ， 即 用 多 元 统计 分 析 方 法 来 解决 ， 通 过 对 多 个 随机 变量 
观测 数据 的 分 析 ， 来 研究 变量 之 间 的 相互 关系 并 揭示 变量 的 内 在 规律 。 所 以 说 ， 多 元 统 
计 分 析 就 是 研究 多 个 随机 变量 之 间 相 互 依赖 关系 及 其 内 在 统计 规律 的 一 门 学 科 。 

多 元 统计 分 析 是 运用 数理 统计 方法 来 研究 解决 多 指标 问题 的 理论 和 方法 。 构 成 多 元 
统计 分 析 模 型 的 数学 方法 并 不 新 颖 ， 如 早 就 有 与 多 元 分 析 有 关 的 基本 概率 分 布 (多 元 正 
态 分 布 源 自 19 世纪 30 年 代 ) 、 主 成 分 分 析 (由 К. Pearson 于 1901 年 提出 ， 再 由 Hotelling 
于 1933 年 推广 的 一 种 统计 方法 ) 。 由 于 当 随 机 变量 较 多 时 ， 多 元 分 析 的 计算 工作 量 极其 
莹 见 ， 没 有 计算 机 根本 无 法 完成 ， 因此， 直到 有 了 计算 机 之 后 ， 多 元 分 析 技 术 才 进入 实 
用 阶段 并 得 到 迅速 发 展 。 近 20 年 来 ， 随 着 计算 机 应 用 技术 的 发 展 和 科研 生产 的 迫切 需 
要 ， 多 元 统计 分 析 技 术 被 广泛 地 应 用 于 经 济 、 管 理 、 地 质 、 气 象 、 水 文 、 医 学 、 工 业 、 
农业 和 教育 学 等 许多 领域 ， 已 经 成 为 解决 实际 问题 的 有 效 方法 。 


1.2 多 元 统计 分 析 的 用 途 


本 书 从 实用 角度 出 发 ， 给 出 了 实际 工作 者 在 处 理 多 元 系统 时 经 常 需要 解决 的 问题 和 
方法 。 在 米 用 多 元 统计 分 析 技 术 进 行 数据 处 理 、 建 立 宏观 或 微观 系统 模型 时 ， 可 以 解决 
以 下 四 个 方面 的 问题 : 

(1) 变量 之 间 的 相依 性 分 析 。 分 析 多 个 或 多 组 变量 之 间 的 相依 关系 ， 是 一 切 科 学 研 
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究 尤 其 是 经 济 管理 研究 的 主要 内 容 ， 简 单 相关 分 析 、 偏 相关 分 析 、 复 相关 分 析 和 典型 相 
关 分 析 提供 了 进行 这 类 研究 的 必要 方法 。 

(2) 构造 预测 模型 ， 进 行 预报 控制 。 在 自然 和 社会 科学 领域 的 科研 与 生产 中 ， 探 索 
多 元 系统 运行 的 客观 规律 及 其 与 外 部 环境 的 关系 ， 进 行 预测 预报 ， 以 实现 对 系统 的 最 优 
控制 ， 是 应 用 多 元 统计 分 析 技术 的 主要 目的 。 在 多 元 统计 分 析 中 ， 用 于 预报 控制 的 模型 
有 两 大 类 : 一 类 是 预测 预报 模型 ， 通 常 采用 多 元 线性 回归 或 逐步 回归 分 析 、 非 线性 回归 、 
判别 分 析 等 建 模 技术 ; 另 一 类 是 描述 性 模型 ， 通 常 采用 综合 评价 的 分 析 技 术 。 

(3) 进行 数值 分 类 ， 构 造 分 类 模式 。 在 多 元 系统 的 分 析 中 ， 往 往 需要 将 系统 性 质 相 
似 的 事物 或 现象 归 为 一 类 ， 以 便 找 出 它们 之 间 的 联系 和 内 在 规律 。 过 去 许多 研究 多 是 按 
单 因 素 进行 定性 处 理 ， 以 致 处 理 结果 反映 不 出 系统 的 总 特征 。 进 行 数值 分 类 ， 构 造 分 类 
模式 一 般 采 用 聚 类 分 析 和 判别 分 析 技术 。 

(4) 简化 系统 结构 ， 探 讨 系统 内 核 。 可 采用 主 成 分 分 析 、 因 子 分 析 、 对 应 分 析 等 方 
法 ， 在 众多 因素 中 找 出 各 个 变量 最 佳 的 子 集合 ， 根 据 子 集合 所 包含 的 信息 描述 多 元 系统 
的 结果 及 各 个 因子 对 系统 的 影响 。 抓 住 主要 矛盾 ， 把 握 主 要 矛盾 的 主要 方面 ， 舍 弃 次 要 
因素 ， 以 简化 系统 的 结构 ， 认 识 系 统 的 内 核 。 

如 何 选择 适当 的 方法 来 解决 实际 问题 ， 需 要 对 问题 进行 综合 考虑 。 对 一 个 问题 可 以 
综合 运用 多 种 统计 方法 进行 分 析 。 例 如 ， 一 个 预报 模型 的 建立 ， 可 先 根据 有 关 经 济 学 、 
管理 学 原理 ， 确 定理 论 模型 和 设计 方案 ; 根据 观察 或 试验 结果 ， 收 集 相 应 资料 ， 对 资料 
进行 初步 提炼 ;然后 应 用 统计 分 析 方 法 (如 相关 分 析 、 逐 步 回 归 分 析 、 主 成 分 分 析 等 ) 
研究 各 个 变量 之 间 的 相关 性 ， 选 择 最 佳 的 变量 子 集合 ; 在 此 基础 上 构造 预报 模型 ， 最 后 
对 模型 进行 诊断 和 优化 处 理 ， 并 应 用 于 经 济 管理 的 生产 实际 中 。 


13 多 元 统计 分 析 的 内 容 


多 元 统计 分 析 的 内 容 主要 有 : 多 元 数据 图 示 法 、 多 元 线性 相关 与 回归 分 析 、 判 别 分 
析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 对 应 分 析 及 典型 相关 分 析 等 。 

1. 多 元 数据 的 数学 表示 | 

多 元 数据 是 指 具 有 多 个 变量 的 数据 。 如 果 将 每 个 变量 看 作 一 个 随机 向 量 的 话 ， 多 个 
变量 形成 的 数据 集 将 是 一 个 随机 矩阵， 所 以 多 元 数据 的 基本 表现 形式 是 一 个 矩阵 。 对 这 
些 数据 矩阵 进行 数学 表示 是 我 们 的 首要 任务 。 也 就 是 说 ， 多 元 数据 的 基本 运算 是 矩阵 运 
算 ， 而 R 语言 是 一 个 优秀 的 矩阵 运算 语言 ， 这 也 是 我 们 应 用 它 的 一 大 优势 。 

2. 多 元 数据 的 直观 分 析 

直观 分 析 即 图 示 法 ， 是 进行 数据 分 析 的 重要 辅助 手段 。 例 如 ， 通 过 两 变量 的 散 点 图 
可 以 考察 异常 的 观察 值 对 样本 相关 系数 的 影响 ， 利 用 和 矩阵 散 点 图 可 以 考察 多 元 之 间 的 关 
系 ， 利 用 多 元 箱 尾 图 可 以 比较 几 个 变量 的 基本 统计 量 的 大 小 差别 。 

3. 相关 分 析 

相关 分 析 就 是 通过 对 大 量 数字 资料 的 观察 ， 消 除 偶然 因素 的 影响 ， 探 求 现象 之 间 相 
关 关 系 的 密切 程度 和 表现 形式 。 在 经 济 系统 中 ， 各 个 经 济 变 量 常常 存在 内 在 的 关系 。 例 
如 ， 经 济 增长 与 财政 收入 、 人 均 收 入 与 消费 支出 等 。 在 这 些 关系 中 ， 有 一 些 是 严格 的 孙 
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数 关 系 ， 这 类 关系 可 以 用 数学 表达 式 表 示 出 来 。 还 有 一 些 是 非 确定 的 关系 ， 一 个 变量 产 
生变 动 会 影响 其 他 变量 ， 使 其 产生 变化 。 这 种 变化 具有 随机 的 特性 ， 但 是 仍然 遵循 一 定 
的 规律 。 函 数 关系 很 容易 解决 ， 而 那些 非 确定 的 关系 ， 即 相关 关系 ， 才 是 我 们 所 关心 的 
问题 。 

4. 回归 分 析 | 

回归 分 析 研 究 的 主要 对 象 是 客观 事物 变量 间 的 统计 关系 。 它 是 建立 在 对 客观 事物 进 
行 大 量 实验 和 观察 的 基础 上 ， 用 来 寻找 隐藏 在 看 起 来 不 确定 的 现象 中 的 统计 规律 的 方法 。 
回归 分 析 不 仅 可 以 揭示 自 变 量 对 因 变 量 的 影响 大 小 ， 还 可 以 用 回归 方程 进行 预测 和 控制 。 
回归 分 析 的 主要 研究 范围 包括 : 

(1) 线性 回归 模型 :一 元 线性 回归 模型 ， 多 元 线性 回归 模型 。 

(2) 回归 模型 的 诊断 : 回归 模型 基本 假设 的 合理 性 ， 回 归 方 程 拟 合 效果 的 判定 ， 选 
择 回归 函数 的 形式 。 

(3) 广义 线性 模型 : 含 定性 变量 的 回归 ， 自 变量 含 定性 变量 ， 因 变量 含 定 性 变量 。 

(4) 非 线性 回归 模型 : 一 元 非 线性 回归 ， 多 元 非 线性 回归 。 

在 实际 研究 中 ， 经 常 遇 到 一 个 随机 变量 随 一 个 或 多 个 非 随 机 变量 的 变化 而 变化 的 情 
况 ， 而 这 种 变化 关系 明显 呈 非 线性 。 怎 样 用 一 个 较 好 的 模型 来 表示 ， 然 后 进行 估计 与 预 
Bi, ， 并 对 其 非 线性 进行 检验 就 成 为 一 个 重要 的 问题 。 在 经 济 预测 中 ， 常 用 多 元 回归 模型 
反映 预测 量 与 各 因素 之 间 的 依赖 关系 ， 其 中 ， 线 性 回归 分 析 有 着 广泛 的 应 用 。 但 客观 事 
物 之 间 并 不 一 定 呈 线性 关系 ， 在 有 些 情 况 下 ， 非 线性 回归 模型 更 为 合适 ， 只 是 建立 起 来 
较为 困难 。 在 实际 的 生产 过 程 中 ,生产 管理 目标 的 参量 与 加 工 数量 存在 相关 关系 。 随 着 
生产 和 加 工 数量 的 增加 ， 生 产 管理 目标 的 参量 ( 如 生产 成 本 和 生产 工时 等 ) 大 多 不 是 简 
单 的 线性 增加 ， 此 时 ， 需 采用 非 线性 回归 分 析 进 行 分 析 。 

5. 广义 与 一 般 线 性 模型 

鉴于 统计 模型 的 多 样 性 和 各 种 模型 的 适应 性 ， 针对 因 变 量 和 解释 变量 的 取 值 性 质 ， 
可 将 统计 模型 分 为 多 种 类 型 。 通 常 将 自 变量 为 定性 变量 的 线性 模型 称 为 一 般 线 性 模型 ， 
如 实验 设计 模型 、 方 差分 析 模 型 ， 将 因 变 量 为 非 正 态 分 布 的 线性 模型 称 为 广义 线性 模型 ， 
如 Logistic 回归 模型 、 对 数 线性 模型 、Cox 比例 风险 模型 。 

1972 年 ，Nelder 对 经 典 线性 回归 模型 作 了 进一步 的 推广 ， 建 立 了 统一 的 理论 和 计算 
框架 ， 对 回归 模型 在 统计 学 中 的 应 用 产生 了 重要 影响 。 这 种 新 的 线性 回归 模型 称 为 广义 
线性 模型 (generalized linear models，GLM) 。 广 义 线性 模型 是 多 元 线性 回归 模型 的 推广 ， 
从 另 一 个 角度 也 可 以 看 作 是 非 线性 模型 的 特例 ， 它 们 具有 一 些 共性 ， 是 其 他 非 线 性 模型 
所 不 具备 的 。 它 与 典型 线性 模型 的 区 别 是 其 随机 误差 的 分 布 不 是 正 态 分 布 ， 与 非 线性 模 
型 的 最 大 区 别 则 在 于 非 线性 模型 没有 明确 的 随机 误差 分 布 假定 ， 而 广义 线性 模型 的 随机 
误差 的 分 布 是 可 以 确定 的 。 广 义 线性 模型 不 仅 包 括 离散 变量 ， 也 包括 连续 变量 。 正 态 分 
布 也 被 包括 在 指数 分 布 族 里 ， 该 指数 分 布 族 包含 描述 发 散 状况 的 参数 ， 属 于 双 参 数 指数 
分 布 族 。 

6. 判别 分 析 

判别 分 析 是 多 元 统计 分 析 中 用 于 判别 样本 所 属 类 型 的 一 种 统计 分 析 方 法 。 所 谓 判 别 
分 析 法 ， 是 在 已 知 的 分 类 之 下 ， 一 旦 有 新 的 样品 时 ， 可 以 利用 此 法 选 定 一 个 判别 标准 ， 
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以 判定 将 该 新 样品 放置 于 哪个 类 别 中 。 判 别 分 析 的 目的 是 对 已 知 分 类 的 数据 建立 由 数值 
指标 构成 的 分 类 规则 ， 然 后 把 这 样 的 规则 应 用 到 未 知 分 类 的 样品 中 去 分 类 。 例 如 ， 我 们 
获得 了 患 骨 炎 的 病人 和 健康 人 的 一 些 化 验 指 标 ， 就 可 以 从 这 些 化 验 指标 中 发 现 两 类 人 的 
区 别 。 把 这 种 区 别 表示 为 一 个 判别 公式 ， 然 后 对 那些 被 怀疑 患 胃炎 的 人 就 可 以 根据 其 化 
验 指标 用 判别 公式 来 进行 辅助 诊断 。 

7. 聚 类 分 析 

聚 类 分 析 是 研究 “ 物 以 类 聚 ” 的 一 种 现代 统计 分 析 方 法 ， 在 社会 、 人 口 、 经 济 、 管 
理 、 气 象 、 地 质 及 考古 等 众多 的 研究 领域 中 ， 都 需要 采用 聚 类 分 析 作 分 类 研究 。 例 如 ， 
不 同 地 区 城镇 居民 收入 和 消费 状况 的 分 类 研究 ; 区 域 经 济 与 社会 发 展 水 平 的 分 析 及 全 国 
区 域 经 济 综合 评判 ; 在 儿童 生长 发 育 研 究 中 ， 把 以 形态 学 为 主 的 指标 归于 一 类 ， 以 机 能 
为 主 的 指标 归于 另 一 类 。 过 去 人 们 主要 靠 经 验 和 专业 知识 作 定 性 分 类 处 理 ， 很 少 利用 数 
学 方法 ， 致 使 许多 分 类 带 有 主观 性 和 任意 性 ， 不 能 很 好 地 揭示 客观 事物 内 在 的 本 质 差别 
和 联系 ， 特 别 是 对 于 多 因素 、 多 指标 的 分 类 问题 ， 定 性 分 类 更 难以 实现 准确 分 类 。 为 了 
克服 定性 分 类 的 不 足 ， 多 元 统计 分 析 逐 渐 被 引入 到 数值 分 类 学 中 ， 形 成 了 聚 类 分 析 这 个 
分 支 。 聚 类 分 析 是 一 种 分 类 技术 ， 与 多 元 分 析 的 其 他 方法 相 比 ， 该 方法 较为 粗糙 ， 理 论 
上 还 不 完善 ， 但 应 用 方面 取得 了 很 大 成 功 。 聚 类 分 析 与 回归 分 析 、 判 别 分 析 一 起 被 称 为 
多 元 分 析 的 三 个 主要 方法 。 

8. 主 成 分 分 析 

在 实际 问题 中 ， 研 究 多 变量 问题 是 经 常 遇 到 的 ， 然 而 在 多 数 情况 下 ， 不 同 变量 之 间 
有 一 定 相 关 性 ， 这 必然 增加 了 分 析 问 题 的 复杂 性 。 主 成 分 分 析 就 是 一 种 通过 降 维 技术 把 
多 个 指标 化 为 少数 几 个 综合 指标 的 统计 分 析 方 法 。 例 如 ， 在 经 济 管理 中 ， 用 主 成 分 分 析 
将 一 些 复杂 的 数据 综合 成 几 个 商业 指数 形式 ， 如 物价 指数 、 生 活 费 用 指数 、 商 业 活 动 指 
数 等 。 又 如 ， 对 我 国 各 省 、 市 、 自 治 区 经 济 发 展 作 综合 评价 ， 显 然 需 要 选取 很 多 指标 ， 
如 何 将 这 些 具 有 错综复杂 关系 的 指标 综合 成 几 个 较 少 的 成 分 ， 使 之 既 有 利于 对 问题 进行 
分 析 和 解释 ， 又 便于 抓 住 主要 矛盾 作出 科学 的 评价 ， 此 时 便 可 以 用 主 成 分 分 析 方 法 。 

9. 因子 分 析 

因子 分 析 是 主 成 分 分 析 的 推广 ， 它 也 是 一 种 把 多 个 变量 化 为 少数 几 个 综合 变量 的 多 
元 分 析 方 法 ， 但 其 目的 是 用 有 限 个 不 可 观测 的 隐 变 量 来 解释 原 变量 之 间 的 相关 关系 。 主 
成 分 分 析 通 过 线性 组 合 将 原 变量 综合 成 几 个 主 成 分 ， 用 较 少 的 综合 指标 来 代替 原来 较 多 
的 指标 (变量 ) 。 在 多 元 分 析 中 ， 变 量 间 往往 存在 相关 性 ， 是 什么 原因 使 变量 间 有 关联 
Ug? 是 否 存 在 不 能 直接 观测 到 的 但 影响 可 观测 变量 变化 的 公共 因子 呢 ? 因子 分 析 就 是 寻 
找 这 些 公共 因子 的 统计 分 析 方 法 ， 它 是 在 主 成 分 的 基础 上 构筑 若干 意义 较为 明确 的 公 因 
子 ， 以 它们 为 框架 分 解 原 变量 ， 以 此 考察 原 变量 间 的 联系 与 区 别 。 例 如 ， 在 研究 糕点 行 
业 的 物价 变动 中 ， 糕 点 行业 品种 繁多 ， 多 到 几 百 种 甚至 上 千 种 ， 但 无 论 哪 种 样式 的 糕点 ， 
用 料 不 外 乎 面粉 、 食 用 油 、 糖 等 主要 原料 。 那 么 ， 面粉、 食用 油 、 糖 就 是 众多 糕点 的 公 
共 因 子 ， 各 种 糕点 的 物价 变动 与 面粉 、 食 用 油 、 糖 的 物价 变动 密切 相关 ， 要 了 解 或 控制 
糕点 行业 的 物价 变动 ， 只 要 抓 住 面 粉 、 食 用 油 和 糖 的 价格 即 可 。 

10. 对 应 分 析 | 

对 应 分 析 又 称 为 相应 分 析 ， 由 法 国 统计 学 家 J. P. Beozecri 于 1970 年 提出 。 对 应 分 析 
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是 在 因子 分 析 基 础 之 上 发 展 起 来 的 一 种 多 元 统计 方法 ， 是 Q 型 和 R 型 因子 分 析 的 联合 应 
用 。 在 经 济 管理 数据 的 统计 分 析 中 ， 经 常 要 处 理 三 种 关系 ， 即 样品 之 间 的 关系 (Q 型 关 
系 ) 、 变 量 间 的 关系 (R 型 关系 ) 以 及 样品 与 变量 之 间 的 关系 (对 应 型 关系 )。 例 如 ， 对 
某 一 行业 所 属 的 企业 进行 经 济 效 益 评 价 时 ， 不 仅 要 研究 经 济 效益 指标 间 的 关系 ， 还 要 将 
企业 按 经 济 效益 的 好 坏 进行 分 类 ， 人 研究 哪些 企业 与 哪些 经 济 效益 指标 的 关系 更 密切 一 些 ， 
为 决策 部 门 正确 指导 企业 的 生产 经 营 活动 提供 更 多 的 信息 。 这 就 需要 有 一 种 统计 方法 ， 
将 企业 (样品 ) 和 和 指标 (变量 ) 放 在 一 起 进行 分 析 、 分 类 、 作 图 ， 便 于 作 经 济 意 义 上 的 
解释 。 解 决 这 类 问题 的 统计 方法 就 是 对 应 分 析 。 

11. 典型 相关 分 析 

在 相关 分 析 中 ， 当 考察 的 一 组 变量 仅 有 两 个 时 ， 可 用 简单 相关 系数 来 衡量 它们 ; 当 
考察 的 一 组 变量 有 多 个 时 ， 可 用 复 相关 系数 来 衡量 它们 。 大 量 的 实际 问题 需要 我 们 把 指 
标 之 间 的 联系 扩展 到 两 组 变量 ， 即 两 组 随机 变量 之 间 的 相互 依赖 关系 。 典 型 相关 分 析 就 
是 用 来 解决 此 类 问题 的 一 种 分 析 方 法 。 它 实际 上 是 利用 主 成 分 的 思想 来 讨论 两 组 随机 变 
量 的 相关 性 问题 ， 把 两 组 变量 间 的 相关 性 研究 化 为 少数 几 对 变量 之 间 的 相关 性 研究 ， 而 
有 是 这 少数 几 对 变量 之 间 又 是 不 相关 的 ， 以 此 来 达到 化 简 复 杂 相 关 关 系 的 目的 。 典 型 相关 
分 析 在 经 济 管理 实证 研究 中 有 着 广泛 的 应 用 ， 因 为 许多 经 济 现象 之 间 都 是 多 个 变量 对 多 
个 变量 的 关系 。 例 如 ， 在 研究 通货 膨胀 的 成 因 时 ， 可 把 几 个 物价 指数 作为 一 组 变量 ， 把 
若干 个 影响 物价 变动 的 因素 作为 男 一 组 变量 ,通过 上 典型 相关 分 析 找 出 几 对 主要 综合 变量 ， 
结合 典型 相关 系数 对 物价 上 涨 及 通货 膨胀 的 成 因 ， 给 出 较 深 刻 的 分 析 结 果 。 

12. 多 维 标 度 法 

多 维 标 度 分 析 (multidimensional scaling，MDS) 是 以 空间 分 布 的 形式 表现 对 象 之 间 
相似 性 或 亲 朴 关系 的 一 种 多 元 数据 分 析 方 法 。1958 Æ, Torgerson 在 其 博士 论文 中 首次 正 
式 提出 这 一 方法 。MDS 分 析 多 见于 市 场 营 销 ， 近 年 来 在 经 济 管理 领域 的 应 用 日 趋 增 多 , 
但 国内 在 这 方面 的 应 用 报道 极 少 。 多 维 标 度 法 通过 一 系列 技巧 ， 使 研究 者 识别 构成 受 测 
者 对 样品 的 评价 基础 的 关键 维 数 。 例 如 ， 多 维 标 度 法 常用 于 市 场 研究 中 ， 以 识别 构成 顾 
客 对 产品 、 服 务 或 者 公司 的 评价 基础 的 关键 维 数 。 其 他 的 应 用 如 比较 自然 属性 (Ше 
品 口味 或 者 不 同 的 气味 ) ， 对 政治 候选 人 或 事件 的 了 解 ， 甚 至 评估 不 同 群体 的 文化 差异 。 
多 维 标 度 法 通过 受 测 者 所 提供 的 对 样品 的 相似 性 或 者 偏好 的 判断 推导 出 内 在 的 维 数 。 一 
旦 有 数据 ， 多 维 标 度 法 就 可 以 用 来 分 析 : 中 评价 样品 时 受 测 者 用 什么 维 数 ; @ 在 特定 情 
况 下 受 测 者 可 能 使 用 多 少 维 数 ; @ 每 个 维 数 的 相对 重要 性 如 何 ; 人 弗 如 何 获得 对 样品 关联 
pt 

， 综 合 评价 方法 
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方法 ， 如 ELECTRE 法 、 多 维 偏好 分 析 的 线性 规划 法 (LINMAP) 、 层 次 分 析 法 (AHP). 
数据 包 络 分 析 法 (EDA) 及 和 逼近 于 理想 解 的 排序 法 (TOPSIS) 等 ， 这 些 方法 到 现在 已 经 
发 展 得 相对 完善 了 ， 而 且 它 们 的 应 用 也 比较 广泛 。 

而 我 国 现代 科学 评价 的 发 展 则 是 在 20 世纪 八 九 十 年 代 ， 对 评价 方法 及 其 应 用 的 研究 
也 取得 了 很 大 的 成 效 ， 把 综合 评价 方法 应 用 到 了 国民 经 济 各 个 部 门 ， 如 可 持续 发 展 综合 
评价 、 小 康 评价 体系 、 现 代 化 指标 体系 及 国际 竞争 力 评价 体系 等 。 
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多 指标 综合 评价 方法 具有 以 下 特点 : 包含 若干 个 指标 ， 分 别 说 明 被 评价 对 象 的 不 同 
方面 ; 评价 方法 最 终 要 对 被 评价 对 象 作出 一 个 整体 性 的 评判 ， 用 一 个 总 指标 来 说 明 被 评 
价 对 象 的 一 般 水 平 。 

目前 常用 的 综合 评价 方法 较 多 ， 如 综合 评分 法 、 综 合 指 数 法 、 秩 和 比 法 、 层 次 分 析 
法 、TOPSIS 法 、 模 糊 综合 评判 法 、 数 据 包 络 分 析 法 等 。 


1.4 软件 及 其 在 统计 分 析 中 的 应 用 


1.4.1 强大 的 统计 分 析 软 件 


1. SAS 软件 简介 

SAS (statistics analysis system ) 是 使 用 最 为 广泛 的 三 大 著名 统计 分 析 软 件 (SAS、 
SPSS 和 S-PLUS) 之 一 ， 是 目前 国际 上 最 为 流行 的 一 种 大 型 统计 分 析 系 统 ， 被 誉 为 统计 分 
析 的 标准 软件 。 

SAS 最 早 是 由 北 卡罗来纳 大 学 的 两 位 生物 统计 学 研究 生 编制 的 。 他 们 在 1976 FR 
SAS 软件 研究 所 后 ， 正 式 推 出 了 SAS 软件 。SAS 是 用 于 决策 支持 的 大 型 集成 信息 系统 ， 
但 该 软件 系统 最 早 的 功能 限于 统计 分 析 ， 至 今 ， 统 计 分 析 功 能 也 仍 是 它 的 重要 组 成 部 分 
和 核心 功能 。 经 过 多 年 的 发 展 ，SAS 已 被 全 世界 120 多 个 国家 和 地 区 的 近 三 万 家 机 构 所 
采用 ， 直 接 用 户 则 超过 三 百 万 人 ， 换 及 金融 、 医 药 卫 生 、 生 产 、 运 输 、 通 信 、 政 府 和 教 
育 科 研 等 领域 。 在 数据 处 理 和 统计 分 析 领 域 ，SAS 系统 被 誉 为 国际 上 的 标准 软件 系统 ， 
并 多 次 被 评选 为 建立 数据 库 的 首选 产品 。SAS ЖЕКА АЈ “Ес”. 

SAS 系统 是 一 个 组 合 软件 系统 ， 它 由 多 个 功能 模块 组 合 而 成 ， 其 基本 部 分 是 
BASESAS 模块 。BASESAS 模块 是 SAS 系统 的 核心 ， 承 担 着 主要 的 数据 管理 任务 ， 并 管理 
用 户 使 用 环境 ， 进 行 用 户 语言 的 处 理 ， 调 用 其 他 SAS 模块 和 产品 。 也 就 是 说 ，SAS 系统 
的 运行 ， 首 先 必须 启动 BASESAS 模块 ， 它 除了 本 身 具 有 数据 管理 、 程 序 设计 及 描述 统计 
计算 功能 以 外 ， 还 是 SAS 系统 的 中 央 调 度 室 。 它 既 可 单独 存在 ， 也 可 与 其 他 产品 或 模块 
共同 构成 一 个 完整 的 系统 。 各 模块 的 安装 及 更 新 都 可 通过 其 安装 程序 非常 方便 地 进行 。 
SAS 系统 具有 灵活 的 功能 扩展 接口 和 强大 的 功能 模块 ， 在 BASESAS 的 基础 上 ， 还 可 以 通 
过 增加 如 下 不 同 的 模块 来 增加 不 同 的 功能 : SAS/STAT (统计 分 析 模 块 ) SAS/GRAPH 
(绘图 模块 ) SAS/QC. (质量 控制 模块 ) SAS/ETS (经 济 计量 学 和 时 间 序 列 分 析 模 块 ) 、 
SAS/OR (运筹 学 模块 )、SAS/IML (交互 式 和 矩阵 程序 设计 语言 模块 ) 、SAS/FSP (快速 数 
据 处 理 的 交互 式 菜 单 系 统 模块 ) SAS/AF 〈 交 互 式 全 屏幕 软件 应 用 系统 模块 ) 等 。SAS 
有 一 个 智能 型 绘图 系统 ， 不 仅 能 绘 各 种 统计 图 ， 还 能 绘 出 地 图 。SAS 提供 多 个 统计 过 程 ， 
每 个 过 程 均 含 有 极 丰 富 的 任 选项 。 用 户 还 可 以 通过 对 数据 集 的 一 连 串 加 工 来 实现 更 为 复 
杂 的 统计 分 析 。 此 外 ，SAS 还 提供 了 各 类 概率 分 析 肾 数 、 分 位 数 了 水 数 、 样 本 统计 函数 和 
随机 数 生 成 函数 ， 使 用 户 能 方便 地 实现 特殊 统计 要 求 。 

SAS 由 大 型 机 系统 发 展 而 来 ， 其 核心 操作 方式 就 是 程序 驱动 。 经 过 多 年 的 发 展 ， 现 
在 已 成 为 一 套 完整 的 计算 机 语言 ， 其 用 户 界 面 也 充分 体现 了 这 一 特点 : 它 采 用 МО (多 
文档 界面 ) ， 用 户 在 PGM 视窗 中 输入 程序 ， 分 析 结 果 以 文本 的 形式 在 OUTPUT 视窗 中 输 


I 多 元 统计 分 析 概 述 e 7 


出 。 用 户 可 以 用 程序 方式 完成 所 有 需要 做 的 工作 ， 包 括 统 计 分 析 、 预 测 、 建 模 和 模拟 抽 
样 等 。 但 是 ， 这 使 得 初学 者 在 使 用 SAS 前 必须 学 习 SAS 语言 ， 入 门 比较 困难 。SAS 的 
Windows 版 本 根据 不 同 的 用 户 群 开发 了 几 种 图 形 操作 界面 ， 这 些 图 形 操作 界面 各 有 特点 ， 
使 用 时 非常 方便 。 但 是 由 于 国内 介绍 它们 的 文献 不 多 ， 并 且 也 不 是 SAS 推广 的 重点 ， 因 
此 还 不 为 绝 大 多 数 人 所 了 解 。 

2. SPSS 软件 简介 

SPSS (statistical package for the social science， 即 社会 科学 统计 软件 包 ) EIL 
名 的 统计 分 析 软 件 之 一 。SPSS 名 为 社会 科学 统计 软件 包 ， 是 为 了 强调 其 社会 科学 应 用 的 
一 面 (因为 社会 科学 研究 中 的 许多 现象 都 是 随机 的 ， 要 使 用 统计 学 和 概率 论 的 定理 来 进 
行 研究 ) ， 而 实际 上 它 在 社会 科学 、 自 然 科学 的 各 个 领域 都 能 发 挥 巨 大 作用 ， 并 已 经 应 用 
于 经 济 学 、 生 物 学 、 教 育 学 、 心 理学 、 医 学 以 及 体育 、 工 业 、 农 业 、 林 业 、 商 业 和 人 金融 
等 各 个 领域 。SAS 是 功能 最 为 强大 的 统计 软件 ， 有 完善 的 数据 管理 和 统计 分 析 功 能 ， 是 
熟悉 统计 学 并 擅长 编程 的 专业 人 士 的 首选 。 与 SAS 比较 ，SPSS 则 是 非 统计 学 专业 人 士 的 
首选 。 

SPSS 有 如 下 特点 : 

(1) 操作 简单 : 除了 数据 录入 及 部 分 命令 程序 等 少数 输入 工作 需要 键盘 键 人 外 ， 大 
多 数 操 作 可 通过 “菜单 ”“ 按 钮 ”和 “对 话 框 ”来 完成 。 

(2) 无 需 编 程 : 具有 第 四 代 语 言 的 特点 ， 只 需 告诉 系统 要 做 什么 ， 无 需 告 诉 怎样 做 。 
只 要 了 解 统计 分 析 的 原理 ， 无 需 通晓 统计 方法 的 各 种 算法 ， 即 可 得 到 需要 的 统计 分 析 结 
果 。 对 于 常见 的 统计 方法 ，SPSS 的 命令 语句 、 子 命令 及 选择 项 的 选择 绝 大 部 分 由 “对 话 
HE" 的 操作 来 完成 。 因 此 ， 用 户 无 需 花 大 量 时 间 记 忆 大 量 的 命令 、 过 程 及 选择 项 。 

(3) 功能 强大 : 具有 完整 的 数据 输入 、 编 辑 、 统 计 分 析 、 报 表 、 图 形制 作 等 功能 。 
SPSS 自 带 11 种 类 型 136 个 函数 。SPSS 提供 了 从 简单 的 统计 描述 到 复杂 的 多 因素 统计 分 
析 方 法 ， 如 数据 的 探索 性 分 析 、 统 计 描 述 、 列 联 表 分 析 、 二 维 相 关 、 秩 相关 、 偏 相关 、 
方差 分 析 、 非 参数 检验 、 多 元 回归 、 生 存 分 析 、 协 方差 分 析 、 判 别 分 析 、 因 子 分 析 、 至 
类 分 析 、 非 线性 回归 、Logistic 回归 等 。 

(4) 方便 的 数据 接口 : 能 够 读 取 及 输出 多 种 格式 的 文件 。 例 如 ， 由 dBASE, 
FoxBASE FoxPRO 产生 的 *. dbf 文件 ， 文 本 编辑 器 软件 生成 的 ASC П 数据 文件 ，Excel 
的 *. xls 文件 等 均 可 转换 成 可 供 分 析 的 SPSS 数据 文件 。 能 够 把 SPSS 的 图 形 转换 为 7 种 
图 形 文件 。 输 出 结果 可 保存 为 *. txt 及 html 格式 的 文件 。 

(5) 灵活 的 功能 模块 组 合 : SPSS for Windows 软件 分 为 若干 功能 模块 ， 用 户 可 以 根据 
自己 的 分 析 需 要 和 计算 机 的 实际 配置 情况 灵活 选择 。 

3. S-PLUS 软件 简介 

S-PLUS 统计 软件 是 美国 Insightful 公司 的 旗舰 产品 ， 是 世界 最 流行 的 统计 分 析 软 件 之 
一 ， 尤 其 为 专业 人 士 所 喜爱 。 它 主要 用 于 统计 分 析 、 统 计 作 图 和 数据 挖掘 等 ， 为 人 们 提 
供 了 一 个 弹性 的 、 互 动 的 可 视 化 环境 来 分 析 和 展示 数据 。 

S-PLUS 有 如 下 特点 : 

(1) 既 可 以 像 所 有 通用 统计 软件 一 样 通过 简单 的 操作 界面 来 实现 基本 统计 分 析 和 统 
计 作 图 ， 又 可 以 用 它 所 特有 的 S 高 级 语言 环境 来 完成 各 种 复杂 的 任务 。S 语言 的 扩展 功 
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能 使 得 它 可 以 很 容易 地 实现 一 种 新 的 统计 方法 。 

(2) 提供 了 最 为 全 面 的 统计 模型 和 分 析 手 段 ， 包 插 各 种 线性 和 非 线 性 回归 分 析 、 随 
机 效应 、 生 存 分 析 、 方 差分 析 、 识 类 分 析 以 及 时 间 序 列 分 析 等 。Insightful 公司 一 直 密 切 
关注 统计 学 发 展 的 最 新 动态 ， 保 持 与 全 球 多 个 领域 的 顶尖 统计 学 家 的 紧密 合作 ， 因 此 ， 
各 种 统计 方法 的 进展 都 会 很 快 被 扩展 到 S-PLUS 中 。 

(3) 具有 很 强 的 图 形 处 理 能 力 ， 拥 有 独一无二 的 可 视 化 交互 式 图 形 显 示 。S-PLUS p= 
生 的 图 形 可 以 是 面向 对 象 的 ， 可 以 提供 广泛 的 可 供 选 择 的 2D 和 3D 图 形 种 类 ， 且 利用 
Graphlets 技术 所 产生 的 互动 式 图 形 可 以 让 使 用 者 通过 图 形 逐 层 下 探 来 观察 和 探索 数据 。 

(4) 兼容 性 极 好 ， 可 以 直接 实现 与 Excel, Lotus, Access, SAS, SPSS 等 常用 软件 的 ° 
数据 转换 ， 也 可 以 方便 地 插入 由 C 语言 和 FORTRAN 语言 等 编制 的 计算 机 程序 。 

S-PLUS 统计 软件 是 在 S 语言 的 环境 下 运行 的 ，S 语言 是 由 AT&T 贝尔 实验 室 开发 的 
一 种 用 来 进行 数据 探索 、 统 计 分 析 、 作 图 的 解释 型 语言 。 它 丰富 的 数据 类 型 (向 量 、 数 
组 、 列 表 、 对 象 等 ) 特别 有 利于 实现 新 的 统计 算法 ， 其 交互 式 运 行 方式 、 强 大 的 图 形 及 
交互 图 形 功 能 可 以 让 使 用 者 方便 地 探索 数据 。 


1.4.2 完整 的 数值 分 析 软 件 


数值 分 析 软 件 较 多 ， 这 里 重点 介绍 一 下 应 用 最 广泛 的 MATLAB 软件 。 

1. MATLAB 的 概况 

MATLAB 是 美国 Math Works 公司 出 品 的 商业 数学 软件 ， 用 于 算法 开发 、 数 据 可 视 
化 、 数 据 分 析 以 及 数值 计算 的 高 级 技术 计算 语言 和 交互 式 环境 ， 主 要 包括 MATLAB 和 
Simulink 两 大 部 分 。 

MATLAB (matrix laboratory ， 和 矩阵 实验 室 ) 和 Mathematica, Maple 并 称 为 三 大 数学 软 
件 。 在 数值 计算 方面 ， 它 在 数学 类 科技 应 用 软件 中 首屈一指 。MATLAB 可 以 进行 矩阵 运 
算 、 编 制 函数 和 数据 、 实 现 算 法 、 创 建 用 户 界 面 、 连 接 其 他 编程 语言 的 程序 等 ， 主 要 应 
用 于 工程 计算 、 控 制 设计 、 信 号 处 理 与 通信 、 图 像 处 理 、 信 号 检测 、 金 融 建 模 设 计 与 分 
析 等 领域 。 

MATLAB 的 基本 数据 单位 是 矩阵 ， 它 的 指令 表达 式 与 数学 、 工 程 中 常用 的 形式 十 分 
相似 ， 故 用 MATLAB 来 解决 计算 问题 要 比 用 C、FORTRAN 等 语言 简捷 得 多 ， 并 且 Math 
Works 公司 也 吸收 了 如 Maple 等 软件 的 优点 ， 使 MATLAB 成 为 一 个 强大 的 数学 软件 。 在 
新 的 版 本 中 也 加 入 了 对 С, FORTRAN, C++, JAVA 的 支持 ， 用 户 可 以 直接 调用 ， 也 可 
以 将 自己 编写 的 实用 程序 导 人 MATLAB 函数 库 中 方便 自己 以 后 调用 。 此 外 ， 许 多 MAT- 
LAB 爱好 者 还 编写 了 一 些 经 典 的 程序 ， 用 户 可 以 直接 下 载 使 用 。 

MATLAB 包括 拥有 数 百 个 内 部 函数 的 主 包 和 三 十 几 种 工具 包 (toolbox) 。 工 具 包 又 可 
以 分 为 功能 性 工具 包 和 学 科 工 具 包 : 功能 性 工具 包 用 来 扩充 MATLAB 的 符号 计算 、 可 视 
化 建 模仿 真 、 文 字 处 理 及 实时 控制 等 功能 ; 学 科 工 具 包 是 专业 性 比较 强 的 工具 包 ， 控 制 
工具 包 、 信 和 号 处 理工 具 包 、 通 信 工 具 包 等 都 属于 此 类 。 | 

开放 性 使 MATLAB 广 受 用 户 欢迎 。 除 内 部 函数 外 ， 所 有 MATLAB 主 包 文件 和 各 种 工 
具 包 都 是 可 读 可 修改 的 文件 ， 用 户 通过 对 源 程序 的 修改 或 加 和 人 自己 编写 的 程序 便 可 构造 
新 的 专用 工具 包 。 
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2. MATLAB 的 语言 特点 

一 种 语言 之 所 以 能 如 此 迅速 地 普及 ， 显 示 出 如 此 旺盛 的 生命 力 ， 是 由 于 它 有 着 不 同 
于 其 他 语言 的 特点 。 正 如 同 FORTRAN 和 C 等 高 级 语言 使 人 们 摆脱 了 需要 直接 对 计算 机 
硬件 资源 进行 操作 一 样 ， 被 称 为 第 四 代 计 算 机 语言 的 MATLAB, 9А SEE eS COEUR, 
使 编程 人 员 从 烦琐 的 程序 代码 中 解放 出 来 。MATLAB 最 突出 的 特点 就 是 简洁 。MATLAB 
用 更 直观 的 、 符 合 人 们 思维 习惯 的 代码 ， 代 替 了 CA FORTRAN 等 语言 的 元 长 代码 。 
MATLAB 给 用 户 带 来 的 是 最 直观 、 最 简洁 的 程序 开发 环境 。 

另外 ，MATLAB 的 应 用 范围 非常 广 ， 包 括 信号 和 图 像 处 理 、 通 信 、 控 制 系统 设计 、 
测试 和 测量 、 财 务 建 模 和 分 析 以 及 计算 生物 学 等 众多 应 用 领域 。 附 加 的 工具 箱 (单独 提 
供 的 专用 MATLAB 函数 集 ) 扩展 了 MATLAB 环境 ， 以 解决 这 些 应 用 领域 内 特定 类 型 的 问 
题 。MATLAB 产品 族 可 以 用 来 进行 以 下 各 种 工作 : 

(1) 数值 分 析 ; 

(2) 数值 和 符号 计算 ; 

(3) 工程 与 科学 绘图 ; 

(4) 控制 系统 的 设计 与 仿真 ; 

(5) 数字 图 像 处 理 技术 ; 

(6) 数字 信和 号 处 理 技术 ; 

(7) 通信 系统 设计 与 仿真 ; 

(8) 财务 与 金融 工程 。 


1.4.3. 免费 的 数值 分 析 软 件 


免费 的 数值 与 统计 分 析 软 件 也 较 多 ， 但 发 展 最 快 、 应 用 最 好 的 当 属 类 似 于 S-PLUS 的 
免费 软件 R 语言 。 

简单 来 说 ，R 是 一 个 用 于 统计 计算 的 很 成 熟 的 免费 软件 。 你 也 可 以 把 它 理解 为 一 种 
计算 机 语言 ， 实 际 上 很 多 人 都 直接 称呼 它 为 “R 语言 "， 它 比 C ++ FORTRAN 等 简单 
得 多 ! 和 如果 你 现在 正 要 用 统计 手法 对 数据 进行 统计 计算 、 分 析 甚 至 目前 比较 流行 的 数据 
挖 据 ， 那 么 建议 你 使 用 R。 原 因 有 以 下 三 点 : 

1. 功能 强大 

由 于 统计 分 析 的 重要 性 ， 早 在 1977 年 ， 著 名 的 贝尔 实验 室 的 一 个 开发 小 组 就 已 经 开 
始 一 个 名 为 “S” 的 研究 项 目 。 从 “SS” 被 研究 成 功 到 导入 市 场 成 为 畅销 产品 “S-PLUS”， 
人 们 分 析 、 显 示 和 处 理 数据 的 方式 和 能 力 被 彻底 地 改变 了 ， 并 且 S-PLUS 和 其 他 的 类 如 C 
语言 等 高 级 计算 机 语言 之 间 的 交互 性 也 非常 友好 。 

而 号 称 S-PLUS 免费 版 的 “R”， 就 是 以 S-PLUS 作为 开发 蓝本 的 ， 从 R 诞生 到 现在 ， 
XT R 与 S-PLUS 刘强 训 弱 的 争论 已 经 有 很 多 。 普 遍 来 讲 ， 有 些 功能 在 S-PLUS 中 能 被 更 
快 更 好 地 执行 是 毫 无 疑问 的 ， 而 有 些 功 能 则 在 R 中 才能 有 更 加 精彩 的 表现 。 

2. 免费 ， 开 源 

上 面 讲 到 R 是 一 个 免费 软件 ， 其 实 还 不 是 很 确切 。 准 确 来 讲 ，R 是 一 个 开源 软件 。 
现在 ， 开 放 源 代码 的 软件 在 科学 和 工程 工作 中 的 地 位 日 益 重 要 。R 的 开源 性 ， 使 得 它 自 
从 20 世纪 90 年 代 被 开发 出 来 至 今 ， 发 展 一 直 没 有 间断 过 ， 很 多 国家 都 相继 出 现 了 关于 
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讨论 开发 R 的 综合 网 站 。 关 于 R 的 各 种 新 的 附加 模块 一 直 层 出 不 穷 ， 大 大 地 方便 了 各 类 
研究 人 员 和 院 校 师 生 。 更 因为 它 的 免费 ， 在 美国 、 日 本 有 很 多 大 学 老师 都 用 R 来 帮助 自 
己 讲 课 ， 学 生 也 用 R 来 处 理 各 种 数据 并 帮助 自己 交 报 告 。 

另外 ，R 其 实 就 像 LINUX 和 PHP 一 样 ， 在 国外 ,很 多 大 学 生 都 是 用 LINUX 系统 ， 
用 PHP 编程 。 而 国内 由 于 盗版 软件 满天飞 的 局 面 ,不 管 正版 盗版 大 家 用 的 都 是 WIN- 
DOWS， 写 程序 很 多 都 是 ASP， 工 具 都 是 清一色 的 MS 系列 最 新 版 。 在 不 讨论 法 律 的 前 提 
下 ， 虽 然 盗版 软件 能 够 让 人 节省 金钱 和 精力 ， 但 实际 上 使 用 盗版 软件 也 就 等 于 自己 堵 住 
了 自己 的 另外 一 条 出 路 ， 一 条 通 往 开源 软件 的 路 ， 一 条 更 让 人 疝 往 的 路 。 

3. 前 景 广阔 

2009 年 《纽约 时 报 》 记 者 Ashlee Vance 在 《纽约 时 报 》 科 技 版 刊登 了 题 为 “Data 
Analysts Captivated by R's Power” 的 文章 ， 这 是 R H 1996 年 由 Robert Gentleman 和 Ross 
Ihaka 教授 开发 以 来 最 大 的 新 闻 之 一 ， 值 得 庆贺 。R 自 诞 生 以 来 ， 深 受 统 计 学 家 和 统计 、 
计量 爱好 者 的 喜爱 ， 已 经 成 为 主流 软件 之 一 。 

Google 统计 学 家 Daryl Pregibon ій: “R 重要 的 一 点 是 怎么 都 不 会 高 估 它 ， 它 允许 统 
计 学 家 作 很 多 复杂 的 分 析 ， 而 不 需要 懂得 很 多 的 计算 机 知识 。 

Google 首席 经 济 学 家 Hal Varian 说 : “К 变 得 如 此 有 用 和 如 此 快 地 广 受 欢迎 是 因为 统 
计 学 家 、 工 程 师 、 科 学 家 能 够 用 它 精 练 代 码 或 编写 各 种 特殊 任务 的 包 。R 包 增 添 了 很 多 
高 级 算法 、 作 图 颜色 和 文本 注释 ， 并 通过 与 数据 库 链 接 等 方式 提供 了 挖掘 技术 。 人 金融 服 
务 部 门 对 R 表现 出 了 极 大 的 兴趣 ， 各 种 各 样 的 衍生 品 分 析 包 相继 出 现 。R 最 优美 的 地 方 
是 它 能 够 修改 很 多 前 人 编写 的 包 的 代码 做 各 种 你 所 需 的 事情 ， 实 际 上 你 是 站 在 巨人 的 肩 
BL." 

辉瑞 (财富 500 强 公 司 之 一 ) 非 临 床 统计 副 主 任 Max Kuhn 说 : “К 已 经 成 为 一 个 人 
从 研究 生 院 毕业 后 的 第 二 门 语 言 了 了 ， 那 里 有 各 种 各 样 的 code， 而 SAS 留言 板 的 人 气 存 在 
一 定 比 例 的 下 降 。” 


1.5 统计 软件 比较 及 R 系统 设置 


l. SAS 软件 

(1) 优点 : 系统 权威 ， 内 容 全 面 ， 是 数据 处 理 和 统计 分 析 的 标准 软件 。 
(2) 缺点 : 系统 庞大 ， 编 程 复 杂 ， 费 用 较 高 。 

SAS 的 使 用 界面 如 图 1 -1 所 示 。 
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2. SPSS 软件 

(1) 优点 : 操作 方便 ， 使 用 简单 ， 是 非 统 计 人 员 的 首选 。 
(2) 缺点 : 内 容 不 全 ， 编 程 麻烦 ， 费 用 较 高 。 

SPSS 的 使 用 界面 如 图 1 -2 所 示 。 
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图 1 -2 SPSS 的 使 用 界面 


3. S- PLUS 软件 


(1) 优点 : 操作 方便 ， 图 形 强 大 ， 是 统计 分 析 和 统计 制图 的 首选 。 
(2) 缺点 : 需要 了 解 S 语言 的 编程 特点 ， 费 用 较 高 。 
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S-PLUS 的 使 用 界面 如 图 1 -3 所 示 。 
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图 1-3 S-PLUS 的 使 用 界面 


4. MATLAB 软件 

(1) 优点 : 编程 方便 ， 和 矩阵 运算 强大 ， 是 数值 计算 和 图 像 处 理 的 首选 。 
(2) 缺点 : 统计 方法 不 多 ， 需 一 定编 程 经 验 ， 费 用 较 高 。 

MATLAB 的 使 用 界面 如 图 1 -4 所 示 。 
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1-4 MATLAB 的 使 用 界面 


5. R 语言 软件 
(1) 优点 : 自由 和 开源 软件 ， 统 计 功能 强大 ， 可 以 看 作 S-PLUS 的 免费 版 本 ， 是 统 
计 研 究 的 首选 。 
(2) 缺点 : 初学 较为 麻烦 ， 需 一 定编 程 经 验 。 
R 语言 的 使 用 界面 如 图 1 -5 所 示 。 
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6. R 语言 界面 设置 

R 是 一 套 完整 的 数据 处 理 、 计 算 和 绘图 软件 系统 ， 具 有 强大 的 数据 存储 和 处 理 系统 
以 及 数组 运算 (其 向 量 、 和 矩阵 运算 方面 功能 尤其 强大 ) 、 完 整 连贯 的 统计 分 析 和 优秀 的 统 
计 制 图 等 功能 ， 还 是 一 个 强大 的 面向 对 象 的 编程 语言 。 这 样 的 编程 环境 需要 使 用 者 熟悉 
各 种 命令 的 操作 ， 还 需 熟 悉 DOS 编程 环境 ， 而 且 所 有 命令 执行 完 即 进入 新 的 界面 ， 这 对 
那些 不 具 编 程 经 验 和 对 统计 方法 掌握 不 是 很 好 的 使 用 者 是 一 大 困难 。 

但 到 目前 为 止 ，R 语言 还 是 一 个 命令 行 编程 环境 ( 见 图 1 -5)，, 命令 、 函 数 很 多 ， 
需要 记 住 大量 的 操作 命令 和 统计 函数 ， 统 计 分 析 也 需要 通过 编程 方式 来 实现 ， 所 以 通常 
是 以 批 命令 的 方式 进行 的 (如 SAS 程序 那样 ) R 自 带 一 个 建立 程序 脚本 的 编辑 器 ， 要 
使 该 R 编辑 器 和 输出 界面 同步 ， 如 图 1 -6 所 示 。 
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图 1-6 R 编辑 器 
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然后 重新 布置 窗口 界面 ， 使 其 同时 可 显示 程序 、 结 果 和 图 形 。 调 整 窗 体位 置 ， 以 适 
应 屏幕 大 小 ， 这 样 就 形成 了 类 似 于 MATLAB 和 SAS 的 编程 环境 。R 语言 的 使 用 界面 调整 
后 如 图 1 -7 所 示 。 
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1-7 Ri 语 言 的 使 用 界面 ( 调整 后 ) 


另外 ,在 使 用 有 语言 时 的 一 个 重要 设置 是 定义 工作 目录 ， 即 设置 当前 运行 路 径 (这 
样 你 的 全 部 数据 和 程序 都 将 保存 在 该 日 录 下 )。 如 本 案例 就 将 工作 目录 设 定 为 E: \ Rcase 


(HE E 盘 上 建立 目录 Rease， 然 后 在 R 软件 的 “文件 ”菜单 的 “改变 工作 目录 ”确定 
Е). 


思考 练习 题 

1. 常用 的 多 元 统计 分 析 方 法 有 哪些 ? 每 一 种 方法 有 何 用 途 ? 

2. 多 元 统计 分 析 方 法 的 作用 是 什么 ? 

3. 列 出 常用 的 统计 软件 ， 说 明 其 使 用 范围 和 各 上 自 的 优 缺 点 。 

4. 除了 书 中 列 出 的 统计 软件 外 ， 试 再 列举 几 种 统计 软件 ， 说 明 其 使 用 范围 和 各 自 的 
优 缺 点 。 

5. 试 对 SAS 和 SPSS 两 个 统计 分 析 软 件 进 行 评 价 。 

6. 试 对 S-PLUS ЯП В 两 个 统计 分 析 软 件 进 行 评价 。 

7. 试 对 MATLAB 和 R 两 个 数值 分 析 软 件 进行 评价 。 


2 多 元 数据 的 数学 表达 及 R 使 用 


【目的 要 求 】 和 要 求学 生 热 练 掌握 如 何 收集 和 整理 多 元 统计 分 析 资 料 、 数 据 的 数学 表 
达 ， 掌 握 多 元 数据 的 数字 特征 的 解析 表达 式 和 数字 特征 的 基本 性 质 ; 熟悉 有 关 统 计 软 件 ; 
利用 统计 软件 来 练习 矩阵 的 有 关 计 和 站 ; 练习 在 已 给 数据 下 ， 求 样本 均值 、 样 本 离 差 阵 、 
样本 协 差 阵 等 。 

【教学 内 容 】 多 元 数据 的 基本 格式 ; 如 何 收集 和 整理 多 元 统计 分 析 资 料 ; 数据 的 数学 
表达 ; 数据 矩阵 及 及 表示 ; 数据 的 R 语言 表示 ; R 调用 多 元 数据 和 多 元 数据 的 简单 R 语 
言 分 析 。 


2.1 如 何 收集 和 整理 多 元 分 析 资 料 


1. 数据 格式 

多 元 统计 分 析 资 料 有 一 定 的 格式 ， 当 对 每 一 观察 单位 测量 了 多 个 指标 (FE) Hf, 
通常 以 矩阵 的 形式 表示 。 

下 面 是 多 元 分 析 资 料 的 一 般 格式 : 


ЗЕҢ X, 变量 X, es 2» X, 
记录 1 Xii X12 "s Xip 
i 2 X21 Xn xe Xip 
记录 n Х X2 тз хь 


可 以 用 一 个 有 n 行 p ЎН ЕРЕ XR X HEUS, ЖКХ. 
Xu X CU Xx, 
y = ху n cU X> (x X," 5,) = (x;),,, 


Xu Xa s... Х np 


XH, x;z(xj,35,*7,x,) ,j=1,2,…,p， 是 单 变量 数值 向 量 。 

当 这 些 变量 处 于 同等 地 位 时 ， 就 是 相关 分 析 、 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 
对 应 分 析 、 多 维 标 度 等 模型 的 数据 格式 ; 当 其 中 一 个 变量 为 因 变 量 ， 而 其 他 变量 为 自 变 
量 时 ， 为 线性 回归 分 析 、 广 义 线性 模型 和 非 线 性 模型 等 的 数据 格式 ; 若 此 时 因 变 量 还 是 
分 类 变量 ， 则 为 方差 分 析 模 型 和 判别 分 析 模 型 的 数据 格式 。 

2. 对 数据 的 要 求 

在 多 元 分 析 中 ， 每 个 观察 单位 的 每 个 变量 都 须 有 数据 ， 不 能 空缺 ， 和 否则 该 观察 单位 
在 运算 中 将 被 忽略 。 一 般 在 统计 分 析 软 件 中 可 以 有 缺失 数据 ， 但 在 计算 时 常常 被 忽略 。 
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3. 变量 的 分 类 

定量 变量 一 一 计量 观测 数据 : 对 每 个 观察 单位 的 某 些 标志 所 测 到 的 数值 (有 单位 )， 
如 身高 (cm), WE (kg)、 收 入 (元 )、 支 出 (元 ) Ж 

定性 变量 一 一 计数 观测 数据 : 将 观察 单位 按 属性 或 类 别 分 组 ， 清 点 各 组 的 观察 单位 
数 ， 如 性 别 数 、 职 业 数 等 。 定 性 变量 通常 需 数量 化 后 才能 进行 多 元 统计 运算 。 分 析 时 定 
性 变量 常常 是 按 1，2 ，… 进 行 识 别 的 。 

【 例 2-1】 股 民 股 票 投资 状况 问 着 调查 与 分 析 。 

为 了 解 股民 的 投资 状况 及 其 股票 投资 特征 ， 我 们 在 2010 年 组 织 统计 学 系 本 科 生 进行 
小 范围 的 “股民 投资 状况 抽样 调查 " 。 本 次 调查 的 抽样 框 主要 涉及 广东 省 的 6 个 城市 
(广州 、 深 圳 、 珠 海 、 中 山 、 佛 山 和 东莞 ) ， 其 中 , 广州、 深圳 各 100 份 ， 其 他 城市 各 80 
份 ， 共 发 放 问 卷 520 份 ， 回 收 有 效 问 卷 514 份 。 问 卷 中 设计 了 18 个 问题 。 为 了 简化 分 
析 ， 本 例 只 考虑 用 年 龄 、 性 别 、 风 险 、 专 兼职 、 职 业 、 教 育 和 投资 结果 共 7 个 变量 进行 
分 析 。 


表 2-1 股民 股票 投资 状况 问卷 调查 


六 、 您 是 专职 
股票 投资 者 还 
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资 者 
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|l 基本 因素 分 


4. 赁 感觉 去 买卖 


十 、 您 用 于 股票 res 十 二 、 您 认为 
七 、 您 做 股票 投资 九 、 您 的 受 教育 | 投资 的 资金 占 您 ds 投资 股票 获胜 


当前 的 资金 规模 家 庭 总 资金 的 аа 的 原因 是 〈 可 
比重 TOTAR 以 多 选 ) 
隔 大 约 是 
. 1 万 元 以 下 
. 1 万 ~3 万 元 
3933 -5 Ax 
. 5 万 ~7 万 元 


1 996 及 以 下 
2 

3 

4 

5. 7 万 ~10 万 元 

6 

7 

` 

9 


10% ~ 19% 
. 20% ~ 29% 
30% ~ 39% 
40% ~ 49% 
50% ~ 59% 
60% ~ 69% 


1. 趋势 要 看 对 
. 1 周 以 内 ”| 2. 选 股 要 选 准 
. 1~2 周 3. 时 机 要 选 好 
. 3~4 周 4. 要 有 独立 的 
. 1-2 А 判断 能 力 
. 3-5 В 5. 要 合理 地 管 
. 6-12 J 理 资 金 
. 年 及 以 上 | 6. 要 有 足够 多 
的 资金 


. 10 万 ~20 万 元 
. 20 万 ~30 万 元 
. 30 万 - 50 万 元 . 70% - 79% 
. 50 万 ~ 100 万 元 . 研究 生 及 以 上 | 9. 80% - 89% 
10. 100 万 元 及 以 上 10. 90% RAE 


900 -) с ^ > wo" — 
0o — ON їл > w M — 
o 0 м с м *+ t N r7 


2 多 元 数据 的 数学 表达 及 ЕФ Pp 
(t ЕЖ) 


i F 五 、 您 认为 做 2 

ооз 十 四 、 您 的 职务 | 股票 赔钱 的 最 主 | 十 六 、 您 做 股票 iiia 十 八 、 您 无 业 
上 5 i 

нерадо 级 别 MOM 投资 的 动因 mmmn | 的 原因 


I. 趋势 看 反 了 | 工 "S L. 因 下 岗 暂 时 
2. 体会 一 下 玩 股 ` 


.公有 资金 3. 别人 买卖 股票 
i 有 把 握 好 ттт „1-2 Е 时 无 业 
siat 4. 跟着 别人 走 着 做 . 2~3 年 ”| 3. 因 找 不 到 工 
` “aao ЖЕН 5， 分 散 投资 策略 гине . 3-4 & 作 暂 时 无 业 
。 失误 М ^ AX . 4 年 及 以 上 | 4. 一直 把 炒股 作 
6. 其 他 赔钱 原因 | B XN 为 自己 的 职业 


目前 从 方便 数据 管理 和 编辑 的 角度 来 说 ， 最 好 的 软件 应 该 是 微软 的 Excel， 大 量 的 数 
据 可 以 在 一 个 Excel 工作 簿 中 保存 ， 所 以 本 书 采 用 该 方法 来 管理 和 编辑 数据 。 图 2 -1 是 
保存 该 例子 的 Excel 工作 短 (文件 名 为 Reode. xls, X data 中 为 原始 数据 ， 表 codedata 中 
为 编码 后 的 数据 ， 基 本 分 析 时 两 种 格式 都 可 以 ,但 有 些 统计 运算 需 编码 数据 )。 


E? Т rosoft Excel - Rcode ds 
Ж) 文件 C) MED ABV ШАО) XQ ТАФ F8RQ) eMe SOW MHW OssiPace 
Jgidaà3i:2duaZ5858548 у о. @ z- l Шо o - ш 


e 
= 


J 


: 
š 


Босо чола tO 
Á] ow * * 4 * # 
dEEEEEEEEET 


508 
509 
510 
511 
512. 
513 
514 
515 


M `+ » "Ndata/codedata/ 


图 2-1 股民 股票 投资 状况 调查 数据 的 Excel 表 ( 原始 数据 ) 


= 
女 
女 
= 
= 
x 
女 
z 
x= 
x 
> 
* 
女 
x 
z 
т 
z 


3 PH 3 dH PH 3 W 3 3 H 3 3 NE на 


本 例 中 ， 人 性别、 风险 、 专 兼职 、 职 业 、 教 育 和 投资 结果 均 为 定性 变量 ， 年 龄 是 定量 
变量 ， 有 时 为 了 方便 分 析 问 题 ， 将 其 定性 化 。 

(1) # (age): 19 岁 及 以 下 (1), 20 -29 2 (2), 30 -39 岁 (3)，40 -49 岁 
(4), 50-59 2 (5), 60 岁 及 以 上 (6), ， 缺 失 * (7), 
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(2) 性 别 (se): ЖЭ (1), & (2). 

(3) 风险 (risk): 有 (1), 无 (2). 

(4) ERR (post): 专职 (1) ,兼职 (2) 。 

(5) 职业 (career) : 干部 (1) ， 管 理 (2) ， 科 教 (3) ， 金 融 (4), ТА (5), Ж 
民 (6), “Ж (7), ЖАУ (8). 

(6) HA (education); 文盲 (1) ， 小 学 (2), ， 中 学 (3), 高 中 (4)， 中 专 (5), 
Ке (6) ， 本 科 〈7) ， 研 究 生 及 以 上 〈8) 。 

(7) 投资 结果 (result): 赚钱 (1), ЕР (2), WEG). 

图 2 -1 可 转换 成 图 2 -2。 


BM kita ар ABV MA SO ТАТ ЖЕФ пф SOY WHU беште, 
PEA PEA kaum. y9?-^"-&r-igeB ° - E 
~ fc age 


sex risk post career 
1 


ч) 


- ww hy М мә = NIN = м tO м fo м 
= һю = -AA Nm LI ~- Nm ll M се 
тә N = — о к -]|m s мә = ое — o ю — ë Q 


4 
3 
3 
5 
6 
2 
2 
l 
3 
8 
8 
2 
1 
3 
1 
5 
2 


FB) fo fO fO FO 一 一 |N Fo М м © 9 € FO РМ 


2-2 股民 股票 投资 状况 调查 数据 的 Excel 表 (编码 数据 ) 


2.2 数据 的 数学 表达 


在 统计 分 析 中 ， 每 一 个 统计 指标 对 应 一 个 随机 变量 ,者 有 多 个 随机 变量 ,， 且 它们 之 
间 有 一 定 的 联系 ， 则 由 这 些 随机 变量 组 成 的 向 量 称 为 随机 回 量 。 

对 p 维 随机 向 量 ， 其 每 一 个 分 量 都 是 一 个 一 维 随机 变量 ， 可 以 单独 研究 。 当 各 分 量 
之 间 有 相互 联系 时 ， 需 将 它们 看 作 一 个 整体 来 研究 。 

1. 一 元 数据 : 随机 变量 

(1) 数学 公式 。 

1) 期 望 计算 公式 : z = E(X) = X, x; p; 

2) 方差 计算 公式 : о? = Var(X) = Y,(x, -)° р, 

(2) 统计 计算 。 


D) 样本 均值 : = 一 Ух, 


l 
2) 样本 方差 : ғ = 


xx 


N= я] YO = 2) 
其 中 ， /为 样本 离 均 差 平方 和 ,1 = Y (s -元 )?。 
2. 多 元 数据 


(1) 数学 公式 。 


H X = (x ,x,,…,%,) 是 nxp ЫИ, 
1) 期 望 计算 公式 : 
期 望 。 


若 E(%i) ,i=1,2,…,p 存在 且 有 限 ， 则 称 E(X) = (E(x,) ,E(x,)， 
2) 协 方差 计算 公式 : 


向 其 的 方差 一 一 协 方差 窍 阵 为 : 


cov(x,,x,) cov(x, ,Xz) cov( x, ,Xp ) 
Y = Var( X) = жн) eoa ta) | cov( x; ,x, ) 
cov( x, ,X,) cov( x, ,X;) cov( x, x ) 
UO; On Tip 
O7 


Op Op 
(2) 统计 计算 。 
对 于 来 自己 维 正 态 总 体 N (1, 工 ) 的 一 个 独立 随机 样本 x, ，x,， 
向 量 为 = 一 立 xi。 样 本 均值 向 量 也 可 用 样本 观测 矩阵 X = (х) ,表示 


D) 样本 均值 向 量 : #=-— $r = X" 


TE 
=—1,X'1, 
2) 样本 协 方差 阵 : S= 


PR 1 
n n 
RE, І, 为 单位 阵 ，1. = (1,1,…,1) 为 1 矩阵 。 


A ] 
-1 


n 


в 10109-8) (x, 78 
其 中 ，A4 为 样本 又 积 矩阵 : A= Y (x - z) (x, 一)" = ХО, - TJ.) X 


此 处 ,7 为 n ТАЛУ, J. Упит 矩阵 。 


2.3 数据 矩阵 及 R 语言 表示 


语言 表述 该 数据 。 


在 多 元 分 析 中 ， 数 据 通常 以 矩阵 的 形式 出 现 ， 下 面 结合 R 语言 介绍 基本 的 矩阵 运算 。 
【 例 2 -2】 测 得 12 名 学 生 的 生长 发 育 指标 身高 (x). ЖШ (x,) 的 数据 ， 试 用 R 


主要 包括 : 创建 答 阵 问 量 ,和 矩阵 加 减 、 乘 积 ， 和 矩阵 的 逆 ， 行列 式 的 值 ， 特 征 值 与 特征 向 
量 ，QR 分 解 ， 奇 异 值 分 解 ， 取 和 矩阵 的 上 下 三 角 元 素 ， 向 量化 算 子 等 。 
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] 


, X, , 其 样本 均值 


5 `> 19 
k. 


EQ) ) X X É 
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x, 171, 175, 159, 155, 152, 158, 154, 164, 168, 166, 159; 164 
x, 57, 64, 41, 38, 35, 44, 41, 51, 57, 49, 47, 46 

І. 创建 一 个 向 量 〈 随 机 变量 、 一 维 数 组 ) 

在 R 中 可 以 用 函数 c( ) 来 创建 一 个 向 量 ， 例 如 : 


Ф== =» meo. ..-.-...-............-.....--...-...--..-..-..-Á..-...-..........-...-á-.......-..-..-...-...-....-....-.Á...-..-..-.Á...-ó...-.....-..--.-...s 


上 ee НСО ЕШ АЕ ЗЕНА. 


这 里 ，x, 、x; 分 别 为 行 向 量 ， 也 可 以 认为 是 1 行 12 列 的 矩阵 。 
PK% length( ) 可 以 返回 向 量 的 长 度 ，mode( ) 可 以 返回 向 量 的 数据 类 型 ， 例 如 : 


[LLL 5 5 <= 4 5 чш 5 ш шш ж Фф шш 4 4 шш © 4 шш а Á... а а ан а а нн а а шы а а на н а а а а нн а а ан а н ны а а а а а и а а на н а н а н ша н а а а а ни а а шн а н ны а ы а н а н а а н а а н а н н н а н а н н н а н а а а 


,> length( x1) 
; [1]12 
! > mode( x1) 


I 
: [1]"numeric" 


LZ III IL I II Il IIl ll :1ll lI III Il IIl III DIL LLL Е 22 2 АӨ LL О Ф Е ЕА ОО А О .-..-......-=-... 


2. 创建 一 个 矩阵 〈 二 维 数组 ) 
(1) 合并 命令 。 可 以 用 rbind( ) 、cbind( ) 将 两 个 或 两 个 以 上 的 回 量 或 矩阵 合并 起 来 ， 
rbind( ) 表示 按 行 合并 ，cbind( ) 则 表示 按 列 合并 。 


' > rbind( xl ,x2 ) 


上 [,12]; 
|: xl 171 175 159 155 152 158 154 164 168 166 159 164 : 


' x2 57 64 4 38 35 ы 41 51 57 49 47 46 : 


i > cbind( x1 ,x2) | 
х1 х2 ' 
mus Il 5 
i [2] 175 & : 
! [3,] 159 41 i 
: [4,] 155 38 
i [5,] 152 35 
[6,] 158 44 : 
o [7,] 154 41 : 
' [8,] 164 51 | 
Же 168 57 | 
: [10,] 166 49 
| | 


人 必要 的 参数 值 。 
matrix ( data = NA , nrow = 1 ,ncol = 1, byrow = FALSE ,dimnames = NULL) x 
data 项 为 必要 的 矩阵 元 素 ，nrow 为 行 数 ，ncol 为 列 数 ， 注 意 nrow 与 ncol 的 乘积 应 为 
和 矩阵 元 素 个 数 ，byrow 项 用 于 控制 排列 元 素 时 是 否 按 行进 行 ，dimnames 给 定 行 和 列 的 名 
称 ， 例 如 : 
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:>matrix(xl,nrow=3,ncol=4) — 
x [1] [2] 0,3] L4] 
' [1,] 171 155 154 166 
kA 175 152 164 159 
| [3,] 159 158 168 164 
:> matrix( xl , nrow =4, ncol =3) 
L1] Lar L,3] 
EPI 171 152 168 
[2,] 175 158 166 
[3,] 159 154 159 
[4, ] 155 164 1⁄4 
> matrix( xl , nrow 2 4,ncol = 3 ,byrow = Т) 
[,1] [.2] [.3] 
[1,] 171 175 159 


3. EERE 


和 


:> À =matrix(1: 12,nrow =3,ncol=4) 


| F1] [2] 5,3] Tl | 
| [1,] 1 4 7 10 
| [2,] 2 5 8 11 : 
* [3,] 3 6 9 12 i 
:>t(A) 
| [1]. Та] Lal | 
S 1 2 3 
: [2] 4 5 6 | 
! [3,] 7 8 9 ' 
OE ,CC 
4. Жо, 


Wawa. т=ш= == ш = = =ш = от чш т = == = т ошв С ж ж эшш ж ош шш ж ш ш = эш шш ъ ® өш ® ы ыш ш ш шш ш ш шь т ® шы ш ш шы ш ш шш ш ш шы ш ш шш ш ш шы ш ш шы ш ы шы ш ш шш ш ш ы ш ш шш ÉL LOL SLIDE 22Е66 


'>A +B . 
| [1] [.2] [3] [.4] | 
mum 2 8 м 20 
Жем 4 10 16 2 
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[ILL ч о чш LLL © ч шш ж о чш ж оч шш ч IL: Ф pi 6 5% 5 .Á..................... ша а ш ша ш а ша ш DLL О ОТ Э ®ъ ® шщ ® ® ы&в ш í La ш ш xs E = у 


‚>А-В 

[41] a. 553] E; 
' [1,) 0 0 0 0 
б. 12.1 0 0 0 0 
5. EHR 


А у mxn EBE, BA n xk Е, Æ R 中 求 AB 可 用 符号 “% *%”, 例如: 


[LLLLLLLLLLLLILLLILLL Lu aM Ош ШШ ОШ ш ЫШ ш ШШ .. LOL ш ШШ ШО ШШ О ШШ ШШ ШО © ш ШШ ШОШ ШШ О ШШ ш ШЫ @ ш ШШ ы ш ШШ ш ШШ ШО ШШ ш e | 


'>A = matrix( 1: 12, nrow =3 ,ncol =4) 


i > B = matrix(1: 12, nrow =4,ncol =3) 


> А% *% B 
L.l] 
LH] 70 
[2,] 80 
[3,] 90 


® = = .... шш ш ш шш ш ш DL шш ш ш шш ш ш чш = ш шш ш ш шш ш = шш ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш ш в шш ® Б шш 5 o Dl D .......Á..Á. оеш = от тт от от отт от от отт отот тт от т отт тот отт тот тт отот тт от тоф 


. 矩阵 对 角 元 素 相 关 运 算 
阁 要 取 一 个 方 阵 的 对 角 元 素 ， 对 一 个 向 量 应 用 diag( ) 函数 将 产生 以 这 个 向 量 为 对 角 


元 素 的 对 角 和 矩阵 ， 对 一 个 正 整数 上 应 用 diag( ) 函数 将 产生 上 维 单位 矩阵 ， 例 如: 


"== нн т тт т т ҥт тот mM 


i » diag( A) 

: [1] 1 6 11 16 

i > diag( diag( A) ) 

[11 [42]. {з TA 
: [1,] 1 0 0 0 
; [2,] 0 6 0 0 
aA 0 ои 0 
: [4,] 0 о о 1 
i> diag(3) 

| [1] L2] [3] 

t FI] 1 0 0 

i [2,] 0 1 0 

: [3,] 

7. 4& Eo i 


XB йй n] Н] PRÉ solve( ) ， 应 用 solve( A, b) 运算 结果 可 解 线 性 方程 组 Ax =b, 
缺 省 ， 则 系统 默认 为 单位 和 矩阵， 因此 可 用 其 进行 矩阵 求 道 ， 例 如 : 


фин ти т == == == = = = == жа = т ож= = = же жоє ш = э өш dd ъ& © = ыш ш ош тє Ыы ш эв ш = шш а = шш ж ош шш ж ош шш ш ш шы а а шы © ш ш 5 ж жө ж э ж, э э ж ж = ш ж єт ош ч ж шш = ож шш т ош шш т т шь жож жы э ож тв а чү 


ЫЛ] [ ,2] [49] [ ,4] 

[1,] 1. 570 0.2909 -0.2853 -0.7003 

[2] 0.112  -0.4342 0.1305 -0.7580 

[3,] -0.549 0.3529 — -0.1857 0. 3329 
NC 
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Заю) 
[,1] [ ,2] [ ,3] [ ,4] | 
! [1,] 0. 3347 - 0. 7687 - 1. 145 — 0. 05262 ' 
: [2,] _0.1111 0. 1626 1.814 0. 89482 | 
! [3,] - 1.4441 -0.2231 - 1.041 1. 33557 x 
: [4,] .=0.1356 _ _ -1.5643 __ -1388 . . СТ ВНИИ 


8. 矩阵 的 特征 值 与 特征 向 量 

矩阵 4 的 谱 分 解 为 4=UAU'， 其 中 A 是 由 4 的 特征 值 组 成 的 对 角 和 矩阵，U 的 列 为 4 
的 特征 值 对 应 的 特征 向 量 ， 在 R 中 可 以 用 函数 eigen( ) 得 到 U 和 A。 

eigen( x , symmetric ,only. values = FALSE, EISPACK = FALSE) 

其 中 ,x ABER, symmetric 项 指定 矩阵 * 是 否 为 对 称 和 矩阵 ， 若 不 指定 ， 系 统 将 自动 
检测 x 是 否 为 对 称 矩 阵 ， 例 如 : 


ГҮҮҮТҮҮҮЗҮҮҮЗҮҮҮҮҮҮТҮҮҮҮҮЛҮ ЛҮ -.. -.. -.. -. - -- - -.: s. --.-- -...-. - 6... | 


:>A=diag(4) +1 


[ ,1] [ ,2] [,3] [ ,4] 
. Rm 2 1 1 1 
: [2,] l 2 l 1 2 
i [3,] 1 1 2 l 
' [4,] l 1 | 2 i 
1» A. e s eigen( А symmetric = T) | 
$ values i 
BEES 
. $ vectors 
| [ ,1] [.2] [.3] [ ,4] | 
Su -0.5 0. 8660 0. 000e +00 0. 0000 | 
: [2,] -0.5 - 0. 2887 - 6. 409e - 17 0. 8165 ' 
NS -0.5 -0.2887 — -7.07le-01 -0.4082 | 
| [4,] -0.5 -0. 2887 7.071e - 01 - 0. 4082 | 
> А. e $vectors% ж 6 diag( А. e $values ) 96 *% t( А. e $vectors ) 
! 16 [.2] [ ,3] [ ,4] ' 
ty 2 1 1 1 | 
P e 1 2 1 1 
! [3,] 1 1 2 1 
MORE Lon ME TERRE: SR 


9. 和 矩阵 的 Choleskey 分 解 
对 于 正定 矩阵 4， 可 对 其 进行 Choleskey 分 解 ， 即 4 = Р'Р, 其中, P 为 上 三 角 和 矩阵 ， 
在 R Paf AHAZI chol( ) 进行 Choleskey 分 解 ， 例 如 : 
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ж о= = ш= = = ш= ш ш о== т ж єт + ж чт т = шт = о= =т= = ож тт жож жш e ош ше жож жє жо Ñ... ш ш ш ш ® Ф ш ш шш ш ш шш ш ш ш О С Е шш ш = i—i- -——À | 


‚> A. cz chol( A) : 
| [.1] [.2] [ ,3] [ ,4] 
' [1,] 1.414 0.7071 0.7071 0.7071 
: [2] — 0.000 1.2247 0. 4082 0. 4082 : 
| [3,] — 0.000 0. 0000 1. 1547 0.2887 
' [4,] 0. 000 0. 0000 0. 0000 1. 1180 І 
i» (A. e) %*% A. с 
| [.1] [.2] [.3] [ ,4] | 
: [1,] 2 l | 1 1 
i [2,] 1 2 1 1 | 
' [3,] 1 l 2 l | 
JM CON НИЕ —— — ИКИК RE ЕИРИКНИОНРОНИЕЕ, 


10. ЖЕ ЯЛА 7-0 
А у тхп EBE, rank(A) =r， 可 以 分 解 为 4= Ору, Hip, U'U = V'V= L, TER rp 
可 以 用 函数 svd( ) 进 行 奇 异 值 分 解 ， 例 如 : 


;>A =matrix(1:18,3,6) 
[1] 0.2]. 3). 4). C5). Gél 


i» A. s $u% diag( A. s$d)%*%t( A. s v) 

| LA] EI Ear БАТ sr Tel 
; [1,] 0 4 7 10 13 16 
Im 2 5 8 ll 14 17 
' 6 


: [1,] 1 4 7 10 13 16 | 
; [2,1 2 5 8 11 14 17 | 
' [3] з 6 9 12 15 18 i 
:> А. s =svd( A) 
' $d : 
i [1]4.589e+01 1. 641е+00 2.295е-15 | 
| $ u 
[,1] [72] [43] | 
gam - 0. 5290 0. 74395 0. 4082 | 
: [2,] - 0. 5761 0. 03840 - 0. 8165 | 
i [3,] - 0. 6231 - 0. 66714 0. 4082 : 
i $v : | 
| [ 1] [2] [.3] 
i [1,] -0.07736 -0.7196 - 0. 67039 
: [2,]  -0.19033 - 0. 5089 0. 55767 : 
: [3,] -0.30330 - 0. 2983 0. 28189 : 
' [4,] -0.41627 -0.0876 0. 07321 | 
: [5,] -0.52924 0. 1231 0. 12920 i 
: [6,] -0.64221 0. 3337 - 0. 37158 x 
| | 

| 
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11. Ж QR 分 解 
А у m x n ЖРЕТ QR 分 解 ，4 = QR, ЖФ, Q'Q =I, TER +a L H PRA 
qr( ) 进行 QR 分解 ， 例 如 


„== D = ЖЩ шш = ш шш ш ш шш ш ш чш ш ш чш ж ш шш ө ш шш ш ш ШШ ш ж чш ч ое тш є ЯЕ Т шш LLL ш ош эш = т шш oru ш ш= т ош =т= Á... шш ш ш шш єт ш шш ш ш шш ш шшш шша 


:>А = matrix( 1: 16,4,4) 


| 
i» qr( A) : 
| $ qr ' 
| [.1] [ ,2] [ ,3] [ ,4] | 
i [1,] -5.4772 -12.7802 — -2.008e «01 -2. 739e +01 
Ж 0. 3651 -3.2660 -6. 532е+00 –9. 798e +00 
а 0.5477 -0.3782 2. 641e - 15 2. 057e - 15 | 
‚ [4,] ` 0.7303 - 0. 9125 8. 583e - 01 -2. llle - 16 | 
! $ rank | 
NUN | 
| $ qraux 
i [1] 1.183е+00 1.1560 «00 1. 513е +00 2. 11e - 16 
| $ pivot : 
i [1] 1 2 3 4 i 
! 
! I 


de 


12. Ж kronecker 积 
n xm PF A 5 h xk BI B H) kronecker 积 为 一 个 nh x mk 维和 矩阵 ， 在 R 中 ，kronecker 
BinT LU PRA kronecker( ) 来 计算 ,例如 : 


| 


'>A=matrix(1:4,2,2) : 
| бай [2] | 
: LE] І 3 
SrA 2 4 | 
|» В  matrix( rep( 1,4) 2,2) | 
| ПТ] | 
Т Р 1 1 | 
Же 1 l 
> kronecker( А ,В) | 
| [1] (2] C3] [,4] | 
: [1] l l 3 3 : 
| [2,] 1 1 3 3 | 
' [3;] 2 2 4 4 ! 
pd ed NC ИНОТ. NOR. ИККО =: 
13. 4& Fk 65 4 8 


在 R rPÁRZEBS8I—A-XBPEBSZRPOBC, Б dim ( ) 将 返回 一 个 矩阵 的 维 数 ，nrow{( ) 返 
回 行 数 ，ncol( ) 返 回 列 数 ， 例 如 : 
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和 


:>A=matrix(1:12,3,4) 
i> dim( A) 

1) з 4 

:> nrow( A) 

r [i]. 3 

! > ncol( A) 


14. 矩阵 的 行 和 、 列 和 、 行 平均 与 列 平均 
在 R 中 很 容易 求 得 一 个 矩阵 各 行 的 和 、 平 均 数 以 及 各 列 的 和 、 平 均 数 ， 例 如 : 


II m... ....Áv...-..-..-.. 9 ЭШ ЭЕ ХОЗЕ Ж Е2 Ж 2 Ж 2 ЕОР Э“ АА СЖ 2 2 А2 ЕС «ЭЕ тош ш к ЖЕ 


;> rowSums( А) 

1 [1] 22 26 30 
| > rowMeans( А) 

| [1] &5 6.5 7.5 
' > colSums( А) 

i [1] 6 15 24 33 
! » colMeans( А) 


' [1] 2 5 8 И 


| 


上 述 关 于 和 矩阵 行 和 列 的 操作 ， 还 可 以 使 用 apply( ) 郴 数 来 实现 : 

apply( X, MARGIN ,FUN ,… ) 

其 中 ，X 为 矩阵 ，MARGIN 用 来 指定 是 对 行 运算 还 是 对 列 运算 ，MARGIN = 1 表示 对 
ITZA, MARGIN =2 表示 对 列 运 算 ，FUN 用 来 指定 运算 函数 ,“…” 用 来 给 定 FUN 中 需 
要 的 其 他 参数 ， 例 如 : 

i [1] 22 26 30 

! » apply( A,1 , mean) 

| [1] 5.5 65 7.5 
| > apply(A,2,sum) 
| [1] 6 15 24 33 
|» apply( A,2, mean) 


wm 


列 的 方差 : 
> apply(A ,2,var) 
! [1]0.46417 1.43310 0.31860 1.30427 0.52384 
' > apply( А ‚2 ,function( xa) x «a,a =2) 

[1] [,2] [,3] [,4] 


' 

i [1,] 2 8 м 2 
! [2,] 4 10 16 2 
REN 6 12 18 24 


= + = 5 шш 5 5 Шш ЭЯ ш © © ШШ 4 5 ш 5 5 шш 5 — 4—4 4% ЯЖ 5 5ш Е ЕО 5ш 5 5ш 55 ш 5+ ш = 4 чш == ч 5 = 4 Ф = + = ч чш ч ч тш ч ч чш чш эшш чоч чш "жч "ш ч ч чш ч о чи = эч чоо чш = жө е җ 


注意 ， 最 后 一 式 与 4*2 效果 相同 ， 此 处 旨 在 说 明 如 何 应 用 apply KX. 


- 
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2.4 数据 的 R 语言 表示 一 一 数据 框 


数据 框 (data frame) 是 一 种 矩阵 形式 的 数据 ， 但 数据 框 中 各 列 可 以 是 不 同类 型 的 数 
据 。 数 据 框 每 列 是 一 个 变量 ， 每 行 是 一 个 观测 量 。 数 据 框 可 以 看 成 是 矩阵 (matrix) 的 推 
广 ， 也 可 以 看 作 是 一 种 特殊 的 列表 对 象 (list) 。 数 据 框 是 R 语言 特有 的 数据 类 型 ， 也 是 
进行 统计 分 析 最 为 有 用 的 数据 类 型 ， 但 是 对 于 可 能 列 人 数据 框 中 的 列表 对 象 有 如 下 一 些 
限制 : 

(1) 分 量 必须 是 向 量 (数值 、 字 符 、 逻 辑 ) AF., ФОНЕ, 、 列 表 或 其 他 数据 框 。 

(2) 矩阵、 列表 和 数据 框 为 新 的 数据 框 提 供 了 尽 可 能 多 的 变量 ， 因 为 它们 各 自 拥 有 
列 元 素 或 变量 。 | 

(3) 数值 向 量 、 逻 辑 值 、 因 子 保 持原 有 格式 ， 而 字符 向 量 会 被 强制 转换 成 因子 并 且 
它 的 水 平 就 是 向 量 中 出 现 的 独立 值 。 

(4) 在 数据 框 中 以 变量 形式 出 现 的 向 量 长 度 必 须 一 致 ， 和 矩阵 结构 必须 有 一 样 的 行 数 。 

R 语言 中 用 函数 data. frame ( ) 生成 数据 框 ， 其 句法 是 : data. frame ( datal , data2 ,… ) ， 
例如 : 

:>Х = аа бате(хі,0) — — 1 
х] х2 ' 
171 57 ' 
175 64 


O бсо м QN tA BW 日 一 
— 
щл 
N 
ыы 
л 


=... ж жы ш ож шы ж оҥ -.: от чт тот т= = = ## Ф ИЕ ж ж жш ш ж шш ж ош щш ш ш .-8 . . ЭО 3 т отот т ттт 


,.<2 сш 5ш ш = шш в а жь в є аш є э шь ш в шш = т та єє шь ы в шш ® єъ шш єт = шш эъ ы т = ж ш ж ж шш єт т шш OO DOLO ш эъ в мв т ж шш э э чь э ш шш ш ш эш ш ® шш ы & шш ш ш шш ж ош 


[IZ - -. – н а о ш= = о ш= = а н э о> ч% © % ш% а = ше = ® шь > Ф ш» lf lll | 


I I 
| 身高 ЖЕ 
! 1 171 57 
ЖУ. 175 64 ' 
| 3 159 41 
id — 155 38 
5 1332 35 ' 
' 6 158 44 ' 


' 
T——————————A—————————A—AAA ——A———L-HL- т т=з = == = = ©» = = ш» т = жет = єз = = чә ——————————————————— PPP 
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PE FET ш ош эш ш ош э= ж ош шт от оч т= т т EE 


"T-———————————O———O————————————————Ó———————————————M— Pr II I TT TE ( 


2.5 ”多 元 数据 的 R 语言 调用 


R 的 内 置 数 据 包 dataset 提供 了 大 量 的 数据 ， 使 用 R 的 内 置 数据 集 是 非常 方便 的 ， 通 
常 只 要 给 出 数据 集 名 即 可 。 但 有 时 我 们 需要 从 外 部 录入 数据 ， 外 部 的 数据 源 很 多 ， 可 以 
是 电子 表格 、 数 据 库 、 文 本 文件 等 形式 。 下 面 介 绍 三 种 简单 的 录入 数据 方法 ， 每 种 方法 
都 有 自己 的 优势 ， 至 于 哪 种 方法 最 好 则 要 根据 实际 的 数据 情况 来 决定 。 

1. AS] Mid Ж. 

前 面 我 们 讲 到 ，Excel 是 目前 数据 管理 和 编辑 最 为 方便 的 软件 ， 所 以 我 们 可 以 考虑 用 
Excel 管理 数据 ， 用 R 分 析 数 据 ，Excel 与 R 语言 之 间 的 数据 交换 (适用 于 全 书 ) 过程 非 
常 简单 。 

(1) 选择 需要 进行 计算 的 数据 块 ， 拷 贝 之 。 

(2) 在 R 中 使 用 dat <- read. table( " clipboard" ,header = T) , 

XE, dat 为 读 入 R 中 的 数据 集 ，clipboard 为 剪 切 
板 ，header = T 意味 着 读 人 变量 名 。 

2. 从 文本 文件 读 取 

大 的 数据 对 象 常 常 是 从 外 部 文件 读 人 ， 而 不 是 在 R 
中 直接 键入 的 。R 的 导 人 工具 非常 简单 ， 但 是 对 导 人 
文件 有 一 些 比较 严格 甚至 苛刻 的 限制 。 读 和 人 文本 数据 
的 命令 是 read. table， 但 它 对 外 部 文件 常常 有 特定 的 格 
式 要 求 : 第 一 行 可 以 有 该 数据 框 的 各 变量 名 ， 随 后 的 
行 中 条 目 是 各 个 变量 的 值 。 一 个 被 看 作 数据 框 恋 人 的 
文件 格式 应 是 这 样 的 。 例 如 ， 将 前 面 的 身高 体重 数据 


存在 42.2 文本 文件 中 ， 如 图 2 -3 BER. 图 2-3 文本 数据 文件 d2.2 
| ү! ү2 
l1 xl х2 
:2 т 57] 
i 3 1755 64 x 
id 19 41 
: 5 155 38 


天 要 


2 多 元 数据 的 数学 表达 及 及 使 用 s 


.-- - = =ч о 4% % н н ОФ ® шш 5 4 Фф ш — А жож a тш ч єт отт тот что ч тош ө ө аш ош чү 


6 152 35 
ү, 158 E 
8 154 41 
9 164 51 


m—————————————————————————————————————————————————AÉAAÉEEÉAATT TIT" 


常常 需要 忽略 行 标签 而 直接 使 用 默认 的 行 标签 。 在 这 种 情况 下 ， 输 入 文件 如 下 面 一 
样 省 略 行 标 签 。 这 时 ， 可 以 用 如 下 命令 读 人 : 


* = = === = == ж ав тш ® ш шш ш ш шш ш ш ш= ж ш т т ш шш ж ® жт ыш ш ыш ж ш тт ж т шш ш ш шш ш 2 = ® шш жш ® шш а@ ш шш ш ш шш ш ш шш ш ш тш ш ш шы ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш Б 58111 


: 2 (X = read. table( "42. 2" , header = T) ) 


i xl x2 | 
:1 m 5 : 
:2 "s 6 | 
(3 159 4 | 
E 155 38 | 
; 5 152 35 
| 6 158 44 
:7 154 41 
i8 164 51 
! 9 168 57 : 
: 10 166 49 | 
i 1 159 47 | 
: 12 164 46 


Pm 


其 中 ，header = T 选项 用 来 指定 第 一 行 是 标题 行 ， 并 且 因 此 省 略 文件 中 给 定 的 行 
标签 。 

3. 从 Excel 文件 读 取 

前 面 我 们 说 过 ，Excel 是 最 好 的 数据 管理 和 编辑 软件 ， 多 个 数据 可 以 保存 在 一 个 
Excel ТЕ ТРЕ (sheet) 中 ， 虽然 R 语言 可 以 直接 读 取 Excel 数据 ， 但 一 次 只 能 读 . 
Excel 工作 短 的 一 个 表格 (将 Excel 数据 另存 为 data. csv 格式 ) ， 其 命令 为 : 

> X = read. table( " data. csv" ) 


如 果 要 读 取 Excel 工作 乱 数 据 ， 就 需要 安装 和 调用 RODBC 包 ， 其 命令 为 : 


фео етерот орноороо оо mm Ф® = тое оо ч = =» = о ә Ө Фо ® тео тт оо тоо о о о о о о т а е о о о о о о о е о о Р о о о В о е о о о о о р о о в о о н о в ан о а В о а 


PP einer p тоо сњоочо A ъв оо s... u. к> Ф ® ёз © = Фә = ние Ñ Í Í аео о о Ñ 


要 使 用 Reode. xls 其 中 的 某 个 表 ， 如 data， 其 命令 如 下 : 


uM SETT E 


В т и а н а а а а а а а а а ла а а. а аа а а а а а аа а а а а а а а а а а а а а а ы д ы а а а а а а. а а а аа а ла ы на а а а. а а а а а а а а а ла а а а ан а а а а а а а а ан а а 


' > ( data <- sqlFetch( Rcode , " data" ) ) : 
| 年 龄 性 别 风险 专 兼职 职业 教育 结 | 
1 20-29 я 有 兼职 金融 高 中 赚钱 
2 50-59 4 有 兼职 科教 中 学 持平 | 

k 无 专职 科教 中 学 赔钱 


天 


| 514 40-9 ж 兼职 管理 小 学 持平 
i > (codedata <— sqlFeteh( Reode , " codedata" ) ) 


I 1 
I I 
! аре вех risk post career edu result | 
: 1 2 l 1 2 4 6 1 | 
i 2 5 2 1 2 3 6 2 
' 3 4 2 1 3 6 ! 
ML | 
' 512 9 l 1 2 1 7 1 | 
L 13 3 1 2 2 5 3 2 ! 
154 Ж — 1. 1. 2. 3. | OO 
使 用 完 Excel 数据 后 ， 最 好 将 其 关闭 ， 关 闭 该 数据 文件 的 命令 如 下 : 

> close( Rcode ) 


需要 说 明 的 是 ， 当 Excel 文件 中 包含 的 数据 表 较 多 时 ， 尽 量 不 要 直接 将 其 读 人 ， 因 为 
我 们 通常 只 使 用 其 中 的 某 个 表 ， 全 读 进来 很 占 内 存 。 


2.6 多 元 数据 的 简单 R 语言 分 析 


在 实际 应 用 中 ， 我 们 最 为 关心 的 是 变量 之 间 的 关系 ， 因 为 现实 世界 的 问题 都 是 相互 
联系 的 。 不 讨论 变量 之 间 的 关系 ， 就 无 从 谈 起 任何 有 深度 的 应 用 ， 而 没有 应 用 ， 前 面 讲 
过 的 那些 基本 概念 就 仅仅 只 是 摆设 而 已 。 如 受 教 育 程 度 和 收入 之 间 的 关系 、 科 技 投 入 和 
经 济 增长 之 间 的 关系 、 广 告 投 入 和 经 济 效益 之 间 的 关系 、 治 疗 手 段 和 治愈 率 之 间 的 关系 
等 ， 这 些 都 是 二 元 关系 。 还 有 更 加 复杂 的 诸如 多 元 之 间 的 相互 关系 ， 如 企业 的 固定 资产 、 
流动 资产 、 预 算 分 配 、 管 理 模式 、 生 产 率 、 债 务 和 利润 等 诸 因素 的 关系 是 不 能 用 简单 的 
二 元 关系 来 描述 的 。 这 些 描述 性 的 例子 所 涉及 的 统计 方法 都 会 在 以 后 的 章节 中 介绍 ， 下 
面 用 R 作 人 简单 分 析 。 

1. 定量 变量 的 分 析 

(1) 定量 变量 的 基本 特征 。 最 简单 地 展现 定量 数据 的 图 形 应 属于 直方 图 hist 函数 。 


直方 图 绘制 函数 hist ) 的 用 法 


hist( x,freq = NULL,- ) 


x 为 数值 向 量 
freq 为 频数 或 频率 


PW 


TT TY YIP TTIT TTT TIT ?ITI?TP TTT TTT ТҮТҮГҮ ҮТ TITY TTT ҮТҮ ТҮҮ TITTY TTT TIT TI TIT ...-Á.......-Á.Á...-ÁÁ...-Á......Á...-Á...............á.... 


(2) 定量 变量 间 的 关系 。 描 述 两 个 变量 之 间 关 系 的 最 有 用 的 命令 是 散 点 图 plot 函数 ， 
它 也 是 R 中 最 强大 的 绘图 函数 。 


plot(x,y，…) 
x 为 横 坐 标 ,y 为 纵 坐 标的 二 元 绘图 ; 当 只 有 x 时 ,表示 以 序号 为 横 坐 标 ,x 值 为 纵 坐 标 绘图 ; 


“…" 为 其 他 的 绘图 参数 。 


x2 
35 40 45 50 55 60 65 


ETE TE TE A Ñ... м5 — 5 ++ +» + T... s... .........-Á....Á....Á..⁄..-Á...Á....-......-.......-......-...-..-... 


从 上 图 可 以 看 出 ， 身 高 和 体重 之 间 有 很 强 的 线性 相关 关系 ， 身 高 增加 ， 体 重 也 相应 
增加 。 一 般 来 说 ， 人 们 和 希望 能 够 通过 数据 回答 问题 ， 下 面 就 此 例 进行 初步 探讨 。 

l) 这 两 个 变量 是 否 有 关系 ? BA, 它们 有 关系 ,这 从 散 点 图 中 很 容易 可 以 看 出 ， 基 
本 上 体重 是 随 着 身高 的 增加 而 增加 的 。 

2) 如 果 有 关系 ， 它 们 的 关系 是 否 有 意义 ”这 可 以 从 散 点 图 得 到 答案 ,但 需 进 行 统 计 
检验 。 

3) 这 些 关系 是 什么 关系 ,是否 可 以 用 数学 模型 来 描述 ? 本 例 看 上 去 可 以 拟 合 一 个 回 
归 模 型 (后面 会 介绍 )。 具 体 细节 见 第 4 章 中 的 线性 回归 分 析 。 

4) 这 个 关系 是 否 带 有 普遍 性 ? 也 就 是 说 ， 仅 仅 这 一 个 样本 有 这 样 的 关系 ， 还 是 对 于 
其 他 人 群 也 有 类 似 的 规律 ? 这 里 的 数据 还 不 足以 回答 这 个 问题 ， 可 能 需要 考虑 更 多 的 变 
量 和 收集 更 多 的 数据 。 一 般 来 说 ， 人 们 希望 能 够 从 一 些 特殊 的 样本 中 得 到 普遍 的 结论 ， 
以 利于 预测 。 
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5) .这 个 关系 是 不 是 因果 关系 ? 在 本 问题 中 ， 看 来 有 因果 关系 。 一 般 来 说 ， 变 量 之 间 
有 关系 但 并 不 意味 着 是 因果 关系 。 例 如 ， 肺 癌 和 吸烟 肯定 是 相关 的 ， 但 是 有 人 认为 由 于 
某 种 不 明 原 因 或 其 他 一 些 变量 造成 了 这 二 者 同时 出 现 。 也 有 人 认为 ， 早 发 生 的 事件 为 原 
因 ， 而 后 发 生 的 事件 为 结果 。 但 公鸡 打 鸣 在 先 ， 太 阳 升 起 在 后 ; 地 震 先 兆 在 前 ， 地 震 在 
后 ， 这 都 不 能 说 明 可 以 将 发 生 的 时 间 先 后 作为 判断 因果 关系 的 依据 。 只 要 有 关系 ， 即 使 


不 是 因果 关系 也 不 妨碍 人 们 利用 这 种 关系 来 进行 推断 。 


上 面 这 些 问题 并 不 是 一 成 不 变 的 ， 也 不 是 每 个 问题 都 需要 回答 或 者 能 够 得 到 答案 ， 
一 切 根 据 实际 需要 和 手中 掌握 的 数据 而 定 。 简 单 的 办 法 (如 上 面 的 散 点 图 ) 有 时 不 一 定 
能 够 给 出 满意 的 答案 ， 这 就 需要 更 多 的 工具 和 手段 来 进行 数值 分 析 以 得 到 更 加 严密 和 精 


确 的 解答 。 
2. 定性 变量 的 分 析 


table( … ) 
“.…" 为 一 列 或 多 列 定性 数据 


下 面 是 对 例 2 - 1 的 514 人 进行 的 关于 股票 调查 所 得 结果 的 一 个 简单 的 分 析 。 
(1) 单 因 素 分 析 。 


rr 


| > data = read. table( " clipboard" , header = Т) $5 93 E] Bs C iE ARS TEE data 中 


:> head( data)# 显 示 前 6 组 数据 
年 龄 ”性 别 风险 专 兼 职 职业 


л e V N = 


! 6 
attach( data)  # 解 析 变 量 

i>table( 年龄) # 一 维 列 联 表 
| 年龄 
x 0-19 20-29 30-39 40-49 50-59 60- 


i 
:> 
' 


t 


D 
l 
' 
' 
I 
LI 
LI 
I 
' 
* 
í 
. 


5 ==т== . ш = & == 5 — ч» „= = ч ч ч чир ч чу чир ч ч чар т ч} 


20 
: > barplot( table( 年 龄 ) ,col = 1:7) 


51 2 
150 
100 
50 x 
а | Е 


20 – 29 
50 – 59 
40 – 49 
30 -39 
50 – 59 
40 -49 


3 


хх SH xp ox ss 


92 


f SW ”金融 
有 XN 科教 
X 专职 科教 
有 JW TA 
有 专职 ЖК 
有 xm EH 


167 157 


BH 结 

高 中 赚钱 
中 学 ”持平 
中 学 ”赔钱 
Te ”赚钱 
ке ”赚钱 
小 学 ”赚钱 


4 


* 0-19 20-29 30-39 40-49 50-59 60- 
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一 


0 20 40 60 80 100 


i» barplot ( table ( 性 别 ,年 龄 ) , beside = T, col = 1: 2) £82 zÇ Р beside = 


NM 


+ 


0-19 20-29 30-39 40-49 50-59 60- 


(2) 两 因素 分 析 。 

i> table( 年 龄 ,性 别 ) # 一 维 列 联 表 OO 
性 别 

' 年龄 男 女 

9 и 

i 0-19 2 l 

! 20-29 69 233. 

| 30-39 101 66 

| 40-49 89 68 

: 50-59 24 27 

‚ 60- 15 9 

| > barplot( table( 年 龄 ,性 别 ) „beside = T, col = 1:7) 

| 100 

| 80 

. 60 

40 

| 20 

| 0 = 
: 男 h 


тшше = а шш == ша ш ш шш ч а шш а а чш а а шш а а шш ч а ш "а ш ш а ы ш ш ШШ ШШ 5 2 ШШ ш шш ч ч Шш © 4 4ш ОФ 4 4ш 4 4 4ш ОФ 4 44 4 4 4ш 4 4 44 4 4 4 ОФ 4 4ш 4 4 4464 40чы оч ч 5 ч нш оо == ч чш ч жш с=з 


3 B-z 元 统计 分 析 及 R 语 言 建 模 


因素 分 析 。 


— 
— 
— 


(3) 


r. 4 .................-...-..-..-..-...-Á...Á...................-.Á..-..-...-...-... 


сї w C © 


31 


三 维 列 联 表 

кя т ER 赚钱 
21 
10 


# 


结 
结 


Be 


1 
S 
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各 


|» fiable Hj EM, ZAR) 


' 结果 ”持平 юа 赚钱 | 
: 性 别 年 龄 : 
: 男 ` 3 2 
| 0-19 0 0 2 | 
| 20 - 29 21 17 31 | 
| 30 - 39 31 30 40 | 
i 40 -49 31 30 28 i 
i 50 – 59 5 11 8 
60 - 7 5 3 
' < * 3 7 1 
: 0-19 1 0 0 : 
| 20-29 10 7 6 
x x 
| 
x Г 


36 、 针 -多 元 统计 分 析 及 R 语 言 建 模 


和 一 一 一 一 一 一 一 一 一 一 一 


> (R = able( 性别 ,结果 ,年 龄 ) ) 
年 龄 * 0-19 20-29 30-39 40-49 50-59 60- 


x 
， 性 别 结果 | 
3 “持平 4 0 21 31 31 5 7 
| 赔钱 3 0 17 30 30 la 5 
x 赚钱 2 2 31 40 28 8 3 | 
， 女 F 3 | 10 30 25 E | 
| 赔钱 7 0 7 20 30 l0 5 
l 赚钱 l 0 6 16 13 9 2 x 
i > rowSums( ft) : 
i [1] 99 96 114 79 79 47 
D» colSums ( ft) ' 
; [1] 20 3 92 167 157 51 24 
! > sum( ft) | 

: 


合计 


20 -29 | 30-39 | 40-49 | 50—59 
21 


_@-_ 
sss 
NEM 


无 论 以 何 种 形式 分 析 得 到 的 列 联 表 ， 其 结果 都 是 一 样 的 ， 现 对 其 进行 简单 的 分 析 。 

这 些 表 有 三 个 变量 : 结果 (该 变量 有 三 个 可 能 取 的 值 ， 称 为 三 个 水 平 ， 持平 、 赔 钱 、 
赚钱 ) 、 年 龄 (有 六 个 水 平 ，1 个 缺失 值 * )、 性 别 (有 男 、 女 两 个 水 平 )， 它 们 都 是 定性 
变量 。 表 2 -4 中 间 的 数值 是 变量 的 各 种 水 平 组 合 (共有 2 х3 x7 =42 种 组 合 ) 出 现 的 频 
数 ， 例 如 ，30 一 39 岁 男性 结果 持平 的 有 31 人， 女性 中 20 一 29 岁 赚钱 的 有 6 人 等 。 从 表 
2 -4 中 还 可 以 算出 一 些 和 ， 比 如 男性 赚钱 的 有 114 人 ， 女 性 有 47 人 等 。 可 以 看 出 ， 男 性 
赚钱 的 人 数 相对 比 女 性 要 多 些 。 如 果 要 得 到 更 加 精确 的 结论 ， 就 要 作 进 一 步 的 分 析 、 计 
算 和 统计 推断 。 


-~ 


2 多 元 数据 的 数学 表达 及 及 使 用 Ы 


案例 分 析 : 多 元 数据 的 基本 统计 分 析 及 R 操作 


学 好 统计 的 关键 就 是 要 用 我 们 所 学 的 统计 方法 对 数据 资料 进行 全 面 的 统计 分 析 ， 包 
括 一 些 基本 的 分 析 。 

一 、 多 元 数据 的 管理 

多 元 分 析 的 数据 是 由 一 些 变量 和 它们 的 观测 值 所 组 成 。 本 例子 是 调查 人 们 对 某 个 问 
题 所 持 观点 的 一 个 数据 的 方 阵 形式 。 其 中 有 6 个 变量 : 地 区 编号 (用 字母 A, В, С, р 
表示 ) ЕЗ] 〈 取 值 有 男 、 女 两 种 ) WA (有 支持 、 反 对 和 不 知道 三 种 )、 教 育 程度 
(有 低 、 中 、 高 三 种 ) 、 年 龄 以 及 月 收入 和 月 支出 〈 取 值 为 定量 数值 ) 等 。Excel 文件 
Rcase. xls 的 表 case2 中 共 输 入 了 1 200 个 观测 单位 (问卷 回答 )， 可 以 看 到 这 些 变 量 有 定 
性 (属性) 变量， 也 有 定量 (数值 ) 变量。 按照 这 个 数据 的 格式 ， 每 一 列 为 一 个 变量 的 
不 同 观 测 值 ， 而 每 一 行 则 称 为 一 个 观测 单位 (简称 样品 ) ， 它 是 个 由 定量 值 和 定性 值 组 成 
的 向 量 ， 每 一 个 值 相 对 应 于 一 个 变量 。 


Mic 2 
| шо "'zsermnov5 -- ех 
Lg" i жа 10 Е. 
А1 
ENS 5 | c | р | E F G E 
| 地 区 | 17 l 教育 程度 ж яам Big 
[2j À * 中 2299 1423 
上 3| A * 反对 = 39 3378 2022 
| А | А * 反对 中 33 3460 1868 
[5] B я 支持 E m 4564 1918 
6, 8 * 支持 = 5 3206 1 
ка А 女 支持 中 48 4043 2233 
(8 р * 反对 z 36 3395 1428 
[97 c * x" 中 50 5363 1931 
[10 B Ы 支持 中 +9 6227 
|11 D * 不 知道 Ф 1 2836 1164 
112 A * 反对 低 3306 241; 
113 в я 反对 = 29 2355 128: 
14 с * x- 中 43 4033 1353 
|215| С * 反对 a: 31 3048 1742 
16 c x 支持 中 і 4799 1704 
17 B * 支持 低 41 2614 1785 
|18 B 男 反对 低 38 3091 1289 
[19| c * жи 高 54 1513 1482 
| 20 € x 反对 中 22 1293 2266 
| 21 A E: 反对 + 37 3426 1656 
| 22) D * 不 知道 中 38 2580 415 
23 в 女 反对 中 19 4076 1571 
24, в x 反对 中 39 1286 1985 
25 А * 反对 中 27 2897 2439 
26 в E 支持 中 45 3318 1832 
27 | € т 反对 中 38 3564 1712 
[281 c а 支持 + 41 3217 1744 
129 с Ж 支持 Е 46 2811 1815 
30 р * 上 反对 = 39 234; 1591 
31 А F 支持 中 42 3627 1535 
132 с * 反对 E 3⁄4 2005 2237 ' 
[€ * » wh case /casel/cased /caseb / caseb / case? Гсазей / сазе? / case10 / case11 / case12 / [* Qua sick sicca + | 


二 、R 语言 操作 

1. 调 入 数据 并 进行 基本 统计 分 析 

将 case2 中 的 数据 复制 ， 然 后 在 R 编辑 器 中 执行 case2 = read. table ( " clipboard" , 
header =T) 。 


R version 2.13.1 (2011-07-08) 

Copyright (C) 2011 The R Foundation for Statistical Computing 
ISBN 3-900051-07-0 

Platform: 1386-pc-miíngw32/1396 (32-bit) 


‚нш. TW tista. 
Fw Ts ыз EOS. 
WB iicense( SE! licence) "dee WS qe. 


只 是 个 合作 计划 ， 有 许 过 人 为 之 仇 出 了 贡献 . 
用 'conkcributors 1)' 来 看 合作 者 的 详细 情况 
M'citation i) ' 会 告诉 你 各 何 在 出 版 物 中 正确 地 引用 R 或 R 各 序 色 。 


Ri'deno() ' Ж — do TS NUT. И перо) Е СЕ ЕТИ), X 
Berne troi ELO л ар рУ (Ф. 
'qo" R. 


> casez2eread.table(*clipooard",header*Ti! 


> summary (casez) [T m d2E | 
ER 地 区 t wJ w x 教育 程度 ms 
A:204 8:603 不 知道 ; 15  !&:319 Min. : 6.00 
B:401 1:597 Кїї :605 高 :303 lst Cu.:34.00 
C:384 w ;580 *»:518 Median :40.00 
0:211 Nean 140.18 
3rd Qu.:47.00 
Max. :72.00 
月 收入 月 支出 
мів. : 6377 Nin. : 797 


ist Qu.:2388 1з? Qu.:1722 
Median :2978 — Median :1993 
Mean :3006 Nean :1997 
эта Qu.:3624 Jrd Qu. :2262 
Max. 16239 Мах. :3365 


2. 直观 分 析 
(1) 定性 分 析 。 


š |», Y 
s. 


> par(mar-c(5,4,3,2),cex«2.25) et Eben i POE ES ME 
> table(3&) 
地 区 
A в C b 
204 401 384 211 
> рагріое {table (1 )) 


> 
>| 


ace СЕИ TT 
上 4 在 Rcode хз сазе ФА: :6G1201 数 握 并 复制 
 Case2=read table ("cli rd*,headere-T) 


summary (сазе2) Éti 


d М2 
Le TERcode .x1s8 f M casez2ib Ha: 01201 RE HCM 


|case2«read. table ee ¿headere=T) 
summary (саэе2) Lars 1 


attach (сазе2) ан 


яЯелаъю 


t 
 boxplotv (月 收入 -性 列 ) (OE 
елет (月 收入 -~ 性别] есем 
| ftabie (11 M ПИЕ, Я) 
|barplot(ftable (091, WIES RA), besides, col=3: 4) 


- 
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(2) 定量 分 析 。 


5 


> plot( B UL A, яш) 
> f-hist (BOLA) 


# 月 收入 直方 图 


туйеде устум VR ni d Pt n en p mr Р доо е 
ы Ë z A = ab e à Ее ` > 一 -- DT - : 一 一 


t case2eread.tabie("*cli rd*,header*T) 
ande summary (case2) 2042 
Баттасћ (сазе2) LE d 
6. Roe 3000 1300 3000 2500 3000 3500 0000 4300 5000 3300 6000 lpar(nareciS,4,3,2) ,cex-0,75) e&EEEMOEORTTAX:A 
$counts 
[11 15 47 92 189 261 234 198 111 43 9 2 2 


Sintansities 
[1] 2.500000e-05 7.823333e-05 1.533333e-04 3.150000е-04 
[5] 4.350000e-04 3.900000e-04 3.250000e-04 1.850000е-04 
[9] 7.166667e-05 1.500000e-05 3.333333e-0€6 3.333333e-06 


$density 

[1] 2.500000e-05 7.633333e«-05 1.533333e-04 3.150000е-04 
[5] 4.350000e-04 3.900000e-04 3.250000e-04 1.050000&-04 
[9] 7.166667e-05 1.500000e-05 3.333333e-06 2.333333e-0€ 


$mids 


[1] 750 1250 1750 2250 2750 3250 3750 4250 4750 5250 5750 6250 


$xname 


111 "A&A" 


(1) TRUE 


attr(,"cClass") 
[1] "histogram" 
> 

>| 


> boxplot (月 收入 -~ 性别] (CIE 
> t.test( ik) - M) ct b 
Welch Two Sample t-test 


data: 月 收入 by A 

t = 0.5105, df = 1197.599, p-value = 0.6098 

alternative hypothesis: true difference in means is not equal +05 
9$ percent confidence interval: 

-75.43272 128.48892 

sample estimates: 
mean in group M mean in group X 

3019.454 2992.926 


> 


>] 


ftable (性 吧 , 教育 程度 ， 


barplot(ftable (#9, 教育 程度 , RA), beside=T, col=3: 4} 


EET cru RE VIS í - ~ h 
е. Мае АСАУ V. E Е 


Histogram of 月 收入 


2 

MERcode . x15 Rl case2tila1:c:120] IB HN 
Case2eread.tabilei*cli rd",header*T) 

summary (case2) [2i 5 1 

attach (case2) такя 

рат (nar-c(5,4,3,2) , сех"0.75) EEEEMEORTSTUXA 


4 月 哆 人 直方 本 


^ А ) 
barplot(ftable (#8, 教育 程度 , 观点) besidesT,col=3:4) 


1000 2000 3000 4000 5000 бох 


_ — s a t att qe o t 


40 、 镶 _- 多 元 统计 分 析 及 R 语 言 如 
(4) 多 维 列 联 表 分 析 。 


LEF WA) 
me 不 知道 反对 支持 


n j 

h хз M case2t a::51201 0 8509 
case2»reead.table! ERR E ,headereT) 
summary (case2) жів 
а 


[LIII 


出 
# 月 四 人 直方 图 
!boxplot (月 软 入 -~ 性别 ) эши 
|t.test (月 收入 ~ 性 别 】 осад 


E 
| Ф 4 134 151 
| > barplot(ftable (91, WIRE, 1), besides 7T, со1-2:4) 


id 
| 
! 


0 2 æ 6 8 !00 120 140 


f 
| 
| 
| 
| 
| “ k 


思考 练习 题 

一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 

. 列 出 常用 的 R 语言 矩阵 运算 函数 。 

数组 、 和 矩阵 和 数据 框 有 何不 同 ? 

. 如 何 收集 和 整理 多 元 统计 分 析 资 料 ? 

. 列 出 常用 的 用 来 计算 基本 统计 量 的 R р. 

.如 何 用 R 命令 读 取 文本 数据 ? 

. 如何 用 R 命令 读 取 Excel 数据 ? 

. 如 何 用 R 命令 读 取 数 据 库 数据 ? 

. 如何 用 R 命令 读 取 SAS 数据 ? 

. 如 何 用 R 命令 绘制 直方 图 ? 

.如 何 用 R 命令 绘制 散 点 图 ? 

. 定性 数据 分 析 和 定量 数据 分 析 有 何不 同 ? 

. 举 出 一 些 观测 数据 和 试验 数据 的 例子 。 

二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 

І. 对 下 面 的 相关 系数 矩阵 ， 试 用 R 语言 求 其 首 矩 阵 、 特 征 根 和 特征 向 量 。 
1.00 0.80 0.26 0.67 0.34 
0.80 1.00 0.33 0.59 0.34 

К=|0.26 0.33 1.00 0.37 0.21 

0.67 0.59 0.37 1.00 0.35 
0.34 0.34 0.21 0.35 1.00 

要 求 写 出 R 语言 计算 函数 。 


Doo — с л & ш N к 


— а м 
мю o å- © 
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2. 某 厂 对 50 个 计件 工人 某 月 份 工 资 进 行 登记 ， 获 得 以 下 原始 资料 〈 单 位 : 元 )。 


试 按 组 距 为 300 编制 频数 表 ， 计 算 频 数 、 频 率 和 累积 频率 ， 并 绘制 直方 图 。 
(1) SIS R iS zi RET. 
(2) RH R 语言 进行 基本 统计 分 析 。 
(3) H R 语言 作 正 态 概 率 图 并 分 析 之 。 
3. 以 下 是 一 份 关 于 学 生 是 否 抽烟 与 每 天 学 习 时 间 长 短 关系 的 调查 数据 ， 具 体 见 
FX. 
部 分 学 生 是 否 抽 烟 与 每 天 的 学 习 时 间 长 短 关 系 调查 表 


学 生 学 习 时 间 编码 


аз | лен | мє | 条 天 学 时间 NES 
试用 R 语言 对 其 进行 基本 统计 分 析 。 


4. 试 编制 进行 计量 数据 频数 表 分 析 的 R 语言 函数 。 


3 多 元 数据 的 直观 表示 及 R 使 用 


【 目的 要 求 】 要 求学 生 了 解 多 元 数据 的 直观 表示 方法 ， 了 解 多 变量 图 形 的 一 些 特点 ， 
并 掌握 一 些 复杂 数据 的 图 示 技 术 。 

【教学 内 容 】 这 里 只 介绍 一 些 多 元 数据 的 直观 表示 方法 ， 包 括 均值 条 图 、 箱 尾 图 、 星 
相 图 、 脸 谱 图 、 调 和 曲线 图 等 图 形 及 R 语言 使 用 ， 一 般 的 数据 表示 可 用 如 Excel 一 类 的 
软件 。 


3.1 [fà Ж 


我 们 在 进行 任何 统计 分 析 之 前 ， 都 需要 对 数据 进行 探索 性 分 析 ， 以 了 解 资料 的 性 质 ， 
特别 是 高 维 空 间 的 多 元 数据 。 一 维 、 二 维 数据 的 直观 图 示 容易 作出 ， 但 多 元 的 高 维 图 示 
就 很 难 绘制 ， 本 章 将 介绍 一 些 常 用 的 多 元 图 示 方法 。 

图 形 有 助 于 对 所 研究 数据 进行 直观 了 解 ， 如 果 能 把 一 些 多 元 数据 直接 绘图 显示 ， 便 
可 从 图 形 中 一 目 了 然 地 看 出 多 元 之 间 的 关系 。 当 只 有 一 个 或 两 个 变量 时 ， 可 以 使 用 通常 
的 直角 坐标 系 在 平面 上 作 图 。 当 有 三 维 数据 时 ， 虽 然 可 以 在 三 维 坐标 系 里 作 图 ， 但 已 很 
不 方便 。 而 当 维 数 大 于 三 时 ， 用 通常 的 方法 已 不 能 制图 。 许 多 多 元 统计 分 析 问 题 ， 数 据 
的 维 数 都 大 于 三 ， 所 以 自 20 世纪 70 年 代 以 来 ， 多 元 数据 的 图 示 法 一 直 是 人 们 所 关注 的 
问题 。 人 们 想 了 不 少 办 法 ， 这 些 方法 大 体 上 分 为 两 类 : 一 类 是 使 高 维 空 间 的 点 与 平面 上 
的 某 种 图 形 相对 应 ， 这 种 图 形 能 反映 高 维 数据 的 某 些 特点 或 数据 间 的 某 些 关系 ; 另 一 类 
是 在 尽 可 能 多 地 保留 原始 数据 信息 的 原则 下 进行 降 维 ， 若 能 使 数据 维 数 降 至 二 维 或 一 维 ， 
则 可 在 平面 上 作 图 。 后 者 可 用 本 书 介绍 的 聚 类 分 析 、 主 成 分 分 析 、 因 子 分 析 、 对 应 分 析 
等 方法 解决 。 本 章 仅 对 前 者 介绍 几 种 图 示 法 ， 更 多 的 作 图 方法 可 在 有 关 专 著 中 找到 。 

设 变量 个 数 为 p， 样 品 数 为 nm， 第 个 样品 观测 记 为 X; = (Xasta p) l=1,2,-..., 
n,n 个 样品 观测 数据 组 成 的 矩阵 为 X= (xy),。。 

【 例 3 -1】 为 了 研究 我 国 31 个 省 、 市 、 自 治 区 (未 包括 台湾 、 香 港 和 澳门 ， 以 下 
同 ) 2007 年 城镇 居民 生活 消费 的 分 布 规律 ， 根 据 调查 资料 作 区 域 消费 类 型 划分 。 指 标 名 
称 如 下 ， 原 始 数 据 见 表 3 - 1， 此 例 样 品 数 n=31， 变 量 个 数 p =8。 

X : 人 均 食品 支出 (元 /人 ); 

X,: 人 均 衣 着 商品 支出 (元 /人 ); 

X,: 人 均 家 庭 设备 用 品 及 服务 支出 (元 /人 ); 

X,: 人 均 医 疗 保健 支出 (元 /人 ); 

X,: 人 均 交 通 和 通信 支出 (元 /人 ); 

Xo: 人 均 娱 乐 教育 文化 服务 支出 (元 /人 ); 

X,: 人 均 居 住 支出 (元 /人 ); 

X,: 人 均 杂 项 商品 和 服务 支出 (元 /人 )。 
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表 3 -1 部 分 地 区 城镇 居民 家 庭 平 均 每 人 全 年 消费 性 支出 (数据 见 mvstats. xls : d3. 1) 
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数据 来 源 :《2008 中 国 统计 年 鉴 》。 
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3.2 均值 条 图 及 R 使 用 


对 表 3 -1 的 数据 直接 作 条 图 意义 不 大 ， 通 常 需要 对 其 统计 量 ( 如 均值 、 中 位 数 等 ) 
作 直 观 分 析 。 


条 图 绘制 函数 barplot( ) 的 用 法 


barplot( X,+») 
X 为 数值 向 量 或 数据 框 


ATE mvstats. xls : d3. 1 中 选取 AT: B32 区 域 , 然 后 拷贝 
! » X = read. table( " clipboard" , header = T) 
' > barplot( apply( X ,1,mean) )# 按 行 作 均 值 图 


| | x | | 
is 内 Su 上 ip 湖广 海 四 2 = ы 新 | 
x: £ R W W É Ж + Ж Hi 疆 | 
| Я | 
: > barplot( apply( X , 2 mean) )# 按 列 作 均值 图 | 
: 3500 i 
2500 
1500 | 
| 500 | 
x Jmm. x 
食品 衣着 设备 医疗 交通 教育 居住 杂项 
: > barplot( apply( X[ , 2:8],2,mean) )# 去 掉 “ 食 品 ” 按 列 作 的 均值 图 
1000 
| 600 : 
B Ш E 
| 0 
衣着 设备 医疗 交通 教育 居住 杂项 ! 


II -Á...-Á..-..-Á..-..-.-<......Á.................Á................Á...Á...Á...-......-.........-Á...-...-1...-Á.................. 
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和 


i > barplot(apply(X,2,median)) # 按 列 作 中 位 数 图 | 


2500 


1500 


食品 衣着 设备 医疗 交通 教育 居住 杂项 
»pie(apply( X,2,mean)) # ЕБИ Р 
食品 


| | e 
` 
un > й : 7R ` 
г н 
A- мг. ` P 
- 1 


均 信条 图 通常 用 来 比较 各 变量 在 不 同 观察 单位 上 的 均值 变化 大 小 ， 对 例 3 -1 中 的 31 
个 省 、 市 、 自 治 区 的 八 项 指标 作 均 值 比较 条 图 ， 从 上 图 中 可 以 看 到 ， 贵 州 、 甘 肃 、 青 海 
居民 消费 要 低 于 北京 、 上 海 和 广东 ， 居 民 在 食品 方面 的 支出 远大 于 其 他 方面 。 


3.3 MRAR REA 


Tukey 提出 的 箱 尾 图 由 箱子 和 其 上 引出 的 两 个 尾 组 成 ， 这 种 图 用 来 表示 在 一 定时 间 内 
一 个 班 成 绩 的 变化 、 物 体位 置 的 变化 、 原 材料 的 变化 及 产品 标准 的 变化 等 。 

箱 尾 图 可 以 比较 清晰 地 表示 数据 的 分 布 特 征 ， 它 由 四 部 分 组 成 : 

(1) 箱子 上 下 的 横 线 为 样本 的 23% 和 75% 分 位 数 ， 箱 子 项 部 和 底部 的 差 值 为 四 分 位 
间距 。 

(2) 箱子 中 间 的 横 线 为 样本 的 中 位 数 。 千 该 横 线 没有 在 箱子 的 中 央 ， 则 说 明 样 本 数 
据 存 在 偏 度 。 

(3) 箱子 向 上 或 向 下 延伸 的 直线 称 为 “ 尾 线 ” ， 若 没有 异常 值 ， 样 本 的 最 大 值 为 上 
尾 线 的 硕 部， 样本 的 最 小 值 为 下 尾 线 的 底部 。 默 认 情 况 下 ， 距 箱子 项 部 或 底部 大 于 1.5 
倍 四 分 位 间距 的 值 称 为 异常 值 。 

(4) 图 中 顶部 的 圆圈 表示 该 处 数据 为 异常 值 。 该 异常 值 可 能 是 因 输入 错误 、 测 量 失 
误 或 系统 误差 引起 的 。 对 例 3 -1 这 31 个 省 、 市 、 自 治 区 八 项 指标 作 箱 尾 图 。 


箱 尾 图 绘制 函数 boxplot( ) 的 用 法 


500 
0 


ГҮЗҮҮҮТЛҮҮҮТҮҮҮТҮҮҮТЗҮТҮТҮҮҮ ТҮҮЛҮ a a Ж 2 ФЖ 


boxplot(x,--:) 
x 为 数据 框 


本 rr 


' > boxplot( X) 


食品 衣着 设备 医疗 交通 教育 居住 杂项 
> boxplot ( X ,horizontal = Т) # 水 平 放 置 horizontal = T 


p TTE ЕБЗ– 6а 3 33 3№ Э =ЉЫШЬаашьыы 


0 1000 2000 3000 4000 5000 6000 


T———————————————————————————————————————————————— 4 ш ш 4 ШЫ 5 5 ШЫ 4 4 Шш 44 44 4 4 шш 4 5 шш 5 5ш P D ——— lp 


从 上 图 可 以 看 出 ， 食 品 消费 支出 远 高 于 其 他 项 目 ， 并 且 在 食品 消费 文 出 中 ， 上 海 特 
别 突出 〈 图 中 “O”) ， 达 6 125. 45 元 ， 远 高 于 其 他 地 区 ， 形 成 离 群 值 。 


3.4 星相 图 及 R 使 用 


星相 图 是 雷达 图 的 多 元 表示 形式 ， 它 将 每 个 变量 的 各 个 观察 单位 的 数值 表示 为 一 个 
图 形 n 个 观察 单位 就 有 п 个 图 ， 每 个 图 的 每 个 角 表 示 每 个 变量 。 


星相 图 绘制 函数 stars( ) 的 用 法 


stars(x,full = TRUE ,draw. segments = FALSE, ,… ) 


x 为 数值 矩阵 或 数据 框 
full 为 图 形 形 状 :full = TRUE 为 圆 形 ,full = FALSE 为 半圆 
draw. segments 为 分 支 形 状 :draw. segments = T 为 圆 形 ,draw. segments = Е 为 半圆 
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Wm 


' > stars( X ‚full = T) 


x Y x p c = x 
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o 2 WC € Z F 
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| Y | 
: pm : 
:> stars( X full = F) 
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EE 


上 图 是 根据 例 3 -1 数据 所 作 的 星相 图 。 共 有 31 个 地 区 ， 每 个 星相 图 的 角 表 示 一 个 
变量 。 从 图 中 可 以 看 出 ,， 北京、 上海、 广东 、 浙 江 四 个 地 区 的 消费 情况 较为 突出 ， 其 他 
地 区 的 消费 状况 则 大 致 相同 。 
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> 
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‚ > stars( X ,full = Е, draw. segments = T) 
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3.5 脸谱 图 及 R 使 用 


1973 年 ，Chemooff. H. 提出 了 将 每 个 指标 用 人 的 脸形 的 某 一 部 位 的 形状 或 大 小 来 表 
3k, 这样， 利用 p 个 指标 的 数值 就 可 以 勾画 出 一 个 人 的 脸谱 ， 而 这 些 脸谱 之 间 的 差异 ， 
反映 了 所 对 应 的 样品 之 间 的 差异 特性 。 利 用 脸谱 图 的 直观 性 ， 可 以 给 我 们 的 数据 分 析 带 
来 很 大 的 方便 。 
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脸谱 图 绘制 函数 faces ( ) 的 用 法 


faces( X , nrow. plot , ncol. plot ,…) 


X 为 数值 矩阵 ,每 列 代表 一 个 变量 


nrow. plot 为 图 形 显示 行 数 
ncol. plot 为 图 形 显示 列 数 


; > library(aplpack) # “3 aplpack 包 
i> faces( X , ncol.plot = 7 ) 
北京 天 津 m 山西 ”内 蒙古 辽宁 吉林 
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<> 
' 重庆 四 川 贵州 云南 西藏 陕西 
CEP €> 

| 青海 vH юш 
. €» 


' > faces( X[ ,2:8] ,ncol plot 27) 


北京 “天 津 河北 山西 ”内 蒙古 ”辽宁 ”吉林 
黑龙 江 上 海 ”江苏 浙江 ”安徽 福建 ”江西 
© w o wv o Ө 
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ED 

重庆 gui ”贵州 云南 西藏 ”陕西 НИ 
Co O ә 0 O ә 
青海 ти pa 
e» 

> faces( X[ c(1,9,19,28,29,30) ,] ) # 三 个 发 达 地 区 和 三 个 不 发 达 地 区 比较 

北京 上 海 广东 

一 一 人 一 一 

x ш? ә? 0) 

x 甘肃 青海 宁夏 


和 


从 上 图 可 知 ， 与 其 他 图 形 相 比 ， 脸 谱 图 生动 、 直 观 ， 能 够 非常 形象 地 表达 样本 之 间 
的 差异 。 尽 管 如 此 ， 脸 谱 图 在 现实 生活 中 并 未 得 到 广泛 的 应 用 ， 究 其 原因 ， 笔 者 认为 主 
要 有 以 下 三 点 : 一 是 尽管 计算 机 不 再 是 制作 脸谱 图 的 制约 因素 ,但 能 够 制作 脸谱 图 的 相 
关 软 件 并 未 开发 ， 这 就 限制 了 人 们 对 脸谱 图 的 应 用 。 二 是 虽然 脸谱 图 生动 、 直 观 ， 但 人 
们 对 它 的 需求 也 是 有 限 的 。 因 为 一 个 脸谱 图 代表 一 个 样品 ， 这 样 ， 只 有 当 样 品 较 少 的 情 
况 下 ， 人 们 才 可 以 方便 地 对 各 个 样品 进行 比较 。 然 而 ， 现 实生 活 中 我 们 经 常 面临 的 是 较 
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多 样品 ， 这 样 ， 利 用 脸谱 图 对 样本 进行 比较 可 能 就 不 是 最 佳 选 择 。 三 是 国内 介绍 脸谱 图 
的 教材 相当 少 ， 这 就 限制 了 人 们 的 视野 ， 从 而 对 脸谱 图 的 改进 未 曾 提 出 较 好 的 见解 。 

基于 以 上 原因 ， 脸 谱 图 未 受到 人 们 的 重视 。 然 而 ， 构 造 脸谱 图 的 思想 是 相当 重要 的 ， 
具有 极 大 的 现实 意义 。 作 为 统计 人 员 ， 应 提高 对 构造 脸谱 图 思想 的 认识 ， 并 提出 一 些 改 
进 的 方法 ， 使 脸谱 图 在 现实 生活 中 得 到 广泛 的 应 用 。 


3.6 调和 曲线 图 及 R 使 用 


调和 曲线 图 是 D. F. Andrews 于 1972 年 提出 的 三 角 多 项 式 作 图 法 ， 所 以 又 称 为 三 角 多 
项 式 图 ， 其 思想 是 把 高 维 空间 中 的 一 个 样本 点 对 应 于 二 维 平 面 上 的 一 条 曲线 。 
设 p 维 数据 х = (x, »*255'"* x, ) : , 对 应 的 曲线 是 : 


x 
ГАО, T^ sint + x; cost + x, sin2t +++ ( -T tx) 


上 式 中 ， M L 在 区 间 [ -n,n |] 上 变化 时 ， 其 轨迹 是 一 条 曲线 。 
在 例 3 -1 数据 中 ， 各 地 区 分 别 对 应 的 曲线 为 ;: 
nor P + 847. 39sint +677. 66cost +768. 34sin2t +1 429. 15cos2t + 
587. 98sin3t + 561. 19cos3t 
PCT. — 4 642. 08sint + 557. 96cost + 875. 35sin2t + 1 359. 75cos2: + 


732. 44sin3t + 569. 37cos3t 


它们 的 图 形 表 示 为 : п 次 观测 对 应 п 条 曲线 ， 画 在 同一 平面 上 就 是 一 张 调和 曲线 图 。 

在 多 项 式 的 图 表示 中 ， 当 各 变量 的 数值 太 悬 殊 时 ， 最 好 先 标准 化 后 再 作 图 。 

作 调 和 曲线 时 一 般 要 借助 计算 机 作 图 ， 这 种 图 对 聚 类 分 析 帮 助 很 大 。 如 果 选 择 聚 类 
统计 量 为 距离 的 话 ， 同 类 的 曲线 非常 靠近 拧 在 一 起 ， 不 同类 的 曲线 拧 成 不 同 的 线 ， 非 常 
直观 。 


调和 曲线 图 绘制 函数 plot.andrews( ) 的 用 法 


ploLandrews(X,…) 
X 为 数值 矩阵 ,每 列 代表 一 个 变量 


3 多 元 数据 的 直观 表示 及 R 使 用 чо 51 


PE 


: > library ( mvstats ) ## 22% mvstats 包 
| > plot.andrews( X)# 绘 制 调和 曲线 的 函数 


am. f^ M — 


10000 - / / \ \ | 


8000 


m=. -. . -. . -..-..-...............-..... .. .-Á.. -. . ҮҮ ҮҮ --: . -.. -.-. -..-.............-.......-.. Жү li: e b b d bled 


3.7 其 他 多 元 分 析 图 


多 元 数据 的 图 表示 法 还 有 很 多 ， 如 和 矩阵 散 点 图 、 聚 类 图 、 主 成 分 图 、 因 子 图 、 双 重 
信息 图 和 对 应 图 等 ， 参 见 后 面 章 节 。 


案例 分 析 : 区 域 城市 现代 化 水 平 的 直观 分 析 及 R 操作 


城市 现代 化 的 指标 体系 主要 依据 城市 现代 化 的 特征 表现 来 选取 ， 即 城市 功能 多 样 化 、 
产业 结构 高 级 化 、 城 市 经 济 高 效 化 、 城 市 基础 设施 现代 化 、 城 市 环境 生态 化 和 城市 社会 
文明 化 。 依 据 以 上 特征 ， 力 求 所 选取 的 指标 具有 全 面 性 、 代 表 性 、 简 洁 性 和 可 操作 性 ， 
我 们 提出 如 下 指标 体系 : 

城市 


X, 一 一 第 三 产业 增加 值 占 СОР 比重 (% ) 。 
城市 社会 指标 : X; 一 一 城镇 人 口 占 常 住人 口 比例 (% ) 。 
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城市 人 民生 活 指标 : X4 一 一 居民 人 均 可 支配 收入 《元 ) ; 

X5 一 一 每 十 万 人 拥有 医生 数 。 

Xe 一 一 每 万 人 中 专业 技术 人 员 数 ; 

X， 一 一 每 百人 公共 图 书馆 藏书 数 〈 册 )。 

Xs 一 一 人 均 道路 铺 装 面 积 (平方 米 / 人 ); 
X% 一 一 每 万 人 拥有 公共 汽车 、 电 车 数 〈 辆 ) 。 
城市 环境 因素 指标 ， Xio 一 一 工业 废水 达标 率 (96). 

一 、 数 据 管理 


城市 人 口 素 质 指标 


城市 基础 建设 指标 


57491 59.539 768288 91.51 T1491] 8.7661 13.1707 187.396 388.1707 93.7 
аш 60201 46.6122 177507 100 — 4347.83 8.7013 102.931 274.062 638.6522 96.8 
"4 45204 43.5373 536695 87.9 993.304 18.5633 13. 1595 42.4107 196.5402 96,7 
ша 13294 42,2196 150685 72.34 319.595 4.7689 0.93792 50.4039 103.1506 96.6 
佛山 41266 36.4229 66542  T5.39 205 915 3.0878 4. 55515 60,6522 210.1398 96.1 
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1 

8 f 

9 | 

10 ЭН 25930 34.099 292247 5501 800 2.2445 4.63003 45. 1559 249.4100 9&6 
11 

12 

13 I 


14 an 26908 41.724 2195021 56.79 243.593 3.0759 3.993 19.6025 208. 7773 9.1 


len lm l һә Y - 
LLL 1 


— ЧАИ » 


д.6 


LL 15999 42.52€ 15754 4 412 471 401 048628 0.84071 42. 0357 132.2624 782 
ze 17330 32.9093 16761.5 37.3 112.399 0.24T9 3.0909? 31.261 19$ 1033 71.2 
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СЯ 
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* Wh сазе2) casg) /cased / cases Гсазеб / case / сазе8 / сазед / caselü / casell /case12/ }+ Gud s 


数据 来 源 :《 广 东 统 计 年 鉴 2006》。 


二 、R 语言 操作 

l. HAKH 

选中 case3 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case3 = read. table( " clipboard" , 
header = T) , 

2. 数据 的 直观 分 析 

(1) 均值 条 图 。 
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> summary(case3) Ir: dm Í 
х1 х2 x3 

Min. :12278 Min. :32.91 Min. : 90640 . 

1st Qu.:17330 1st Qu.:36.05 15% Qu.: 16762 

Median :25269 Median :42.72 Median : 20125 


H3 
.1s 的 表单 case3 中 选择 1 :K22 数 据 并 复制 
Casej)=read.table("clipboard",beader=T) 


Mean  :27460 Mean  :42.67 Mean : 39320 | 

stars(cCasel) 
3га Qu. cen 3rd iar 3rd Qu.: — starsí(casej,full»T,draw.segments-T) 
Max. :608 Max. :59.54 Max. :1 ; ы i ° 

library(aplpack) 4 调用 aplpack 色 

EA х5 х6 faces (case3) itum 

Win 2.41 Ша 23.36 Ша 0.2479 library imestats) VARnvstacs t 
ist Qu.: 39.70 1st Qu.: 165.64 1st Qu.: 0.0095 ipiot andes icase?) анама 
Median 51.88 Median : 358.42 Median 1.1561 E- 


Mean 57.03 Mean : 729.02 Mean 3.6805 

3rd Qu.: 73.00 3rd Qu.: 714.91 Эга Qu.: 3.9883 

Max 100.00 Мах, :4347.@2 Мах 18.5633 
I x? x8 x9 — — — - — 
| Min. : 0.8407 міл.  : 10.08 Nin. 103.2 { re fus dendi: 7-2 Ч m z - 

lst Qu.: 2.4253 ist Qu.: 39.60 1st Qu.:183.3 - 
| Median : 3.0910 Median : 42.41 Median :208.8 
| Mean 8,2391 Mean 79.02 Mean  :236.7 
| 3rd Qu.: 4.6300 3rd Qu.: 61.54 3га Qu.:249.4 

Max. :102.8308 мах. 398.67 Мах 638.7 

х10 

Min 61.00 Ё | 

|. 


e 
^ 
& 

9 
en 
° 
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Max. :96.89 
> parí(marsc(5,4,3,2)],cex»0.75) AU IET TOS IE 1. 
> barplot(rowMeansi(caseJ) , 1as«3] ef& tT 0 800 к E 


> | 


10000 


(2) 星相 图 (点 击 图 形 窗口 上 的 四 按钮 放大 图 形 ) 。 


ap 


š 


uS тера 
(3) 半圆 图 。 


(4) 脸谱 图 〈 需 安装 aplpack €J). 


0.8407 Min. : 10.08 Min. :103.2 
2.4253 1st Qu.: 39.60 1st Qu.:183.3 
Median : 3.0910 Median : 42.41 Median :208.8 
LI 
EB 
2 


|Caseeread,.table("clipboard*,header-T) 
summary (case3) 4 基本 统计 重 
.par(marsc(5,4,3,2),cex«0.75) «UENmBEWLOARTUER X 
"barplot (rowMeans (case3) , 1as»3) fir; M FER 
'stars(case1) [ij 


.1381 Меат 1 78.02 Меат. :230.7 
‚6300 3rd Qu.: 61.54 3rd Qu.:249.4 


s US иш. 398.6: dea. 0698.7 stars (сазеЗ, fulleT,draw.segnentseT) 


library (mvstats) 
|;plot.andrews(case1) 


barplot (rowMeans (case3), las=3) tiki; Gt v (t£ DE: 


"width of ear 
"height of ear 


"X4" 
"xs" 


| 
| 
I 
| 
3rd Qu. :95.60 
Max. 196.80 
> parí(mar-c(5,4,3,2],cex-0.75) MR Eun P p tt T 
» 
> stars(case3) B RUE "RIS. RT 
> sStars(case3, fuli=T, drav. segment s»T?! 
> 
> líbrarytapipack) #UWFšR pipackts 
> {асез(саве3) ‚иш 
effect of variables: 
modified item Var @ 5a LE gui 
"height of face ™ "x1" 
"width of face v" "n" е - > 
"structure of face" "X3" Mx я am Bm wx 
“height of mouth = *х4" 
"width of mouth ™ "x5" - > ы ы ° t 
"smiling ° agg ъ= ФШ uri mu жа 
"height of eyes = "x7" ə?  - eo ° | 
"width of еуез " "Ea" | 
"height of hair  " "x9" m* ях ив ит ям 
"width of hair  " "x19" > <> 4 “М i 
"styie of hair " "x1" = 
"height of nose “ "x2" zn 
"width of nose  " "уз" d» 
l 
i 


L > 
› | 


3 多 元 数据 的 直观 表示 及 有 使 用 


(5) 调和 曲线 图 。 


2. ist Qu.: 39.69 
Median : 3.0910 Median ; 42.41 Median :208.0 
Mean : 2.7381 Mean : 78.02 Mean :238.7 
3rd Qu.: 4.6300 3rd Qu.: 61.54 3rd Qu.:249.4 
Max. :102.8308 Max. 1398.67 Max. :638.7 
A10 
| Min. ‚61.00 
| 


1st 00.:74.30 

Median :86.50 

Mean 194.38 

Эга Qu. : 95.60 

Max. :96.80 

> par(marec(ó,4,3,2],cex«0.7*3) ЖШШЕ mx A. 
barploti(rowMeans(case3), las- 09197 eR 15 (g 9 IE 

stars (сазе3) DIL 

Stars (case), full"?, drav. sègaents=T) 


library (aplpəck} 4 调用 spipscr 包 
faces (сазе3) “4 = 

effect of variables: 

modified item Var 

"height of face " *xi" 

"width of face = *x2" 

*structure of face" "xJ" 

"height of mouth " "х4" 

*width of mouth 


wow wow w у 


*sniling z 
"height of eyes е е 
“width of eyes ka 
| "height of hair Е 


| *width of hair  *YX10* 
|! “style of hair е "х1 
| "height of nose "х2" 
| "width of nose = “хз* 
| "width of ear aV x 
| "height of ear e "up 
> 
| > líbraryimvstats) Havsa 2 
| > plot.andrews case) EE rg 
|>! 
| 


思考 练习 题 

一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 
1. 箱 尾 图 的 组 成 和 作用 是 什么 ? 

2. 星相 图 有 什么 特点 ? 

3. 试 述 脸谱 图 的 构造 原理 。 


XA L4 я 


3 
асобе. x13 h B cases: Hai: k228 RC 
|caseJeread.table(*clipboard"*,header*T) 
summary (case3) Г 5.3.118 1 
par(marsc($.4,3,2)],cex«0.25) 4 设置 图形 由 出 边界 和 字体 大 小 
 barplot(rowsmeans(casej),las=J) effir fe at m 
Гэтага (сазе) (33088 
istars(case3, fulleT,draw.segmentse*T) 
plíbrary(apipack) *@Жалр1їрас‹® 
faces (case3) ча 
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4. 调和 曲线 图 有 何 特点 和 作用 ? 

5. 除了 书 中 列举 的 多 元 统计 图 外 ， 请 给 出 5 种 表示 多 元 数据 的 统计 图 。 
二 、 练 习题 (计算 机 分 析 ， 发 电子 邮件 ) 

1. 探讨 雷达 图 与 星相 图 的 区 别 ， 并 编制 绘制 的 R ИТ РА 

2. 下 表 是 2004 年 广东 省 各 市 高 新 技术 产品 情况 。 


( 亿 元 ) ( 亿 元 ) ( 亿 元 ) (亿美 元 ) 
нияз as [зв | omm [оп 
ww | sae | wa | summ | заво 

xs | omn | эю | шп | эз» —_ 
Las | wo | m» | wu» | $59 — 
"mns [зз | эв | m» | en 
[Aes | sa | wx | ma | ow | 
Lam | mw | wo | sa | 3m | 
E 
wes | sa | xe | m» | iu À 
omm | za | oe | 2" | o - 
wus | ms | en | 3 | om | 
Dmm | ws | se | w» | om — 
эя | ms | mur 
Отв | зон 
ыз [оь 
| 


试 按 本 章 讲 的 多 元 图 示 方 法 对 该 资料 进行 直观 分 析 。 


4 相关 分 析 与 回归 分 析 及 R 使 用 


【目的 要 求 】 要 求学 生 在 已 具有 的 (一 元 ) 线性 相关 分 析 与 回归 分 析 的 基础 知识 上 ， 
掌握 和 应 用 多 元 线性 相关 分 析 与 回归 分 析 。 

【教学 内 容 】 变量 间 的 关系 分 析 ; 简单 相关 分 析 与 回归 分 析 ; 多 元 相关 分 析 与 回归 分 
析 的 目的 和 基本 思想 ; 多 元 回归 分 析 的 数学 模型 ;基本 假定 和 最 小 二 来 求法 ; 回归 系数 
的 假设 检验 ; 变量 选择 及 逐步 回归 分 析 方 法 ; 非 线性 回归 模型 的 计算 。 


4.1 变量 间 的 关系 分 析 


变量 间 的 关系 有 两 类 ， 一 类 是 变量 间 存 在 着 完全 确定 的 关系 ， 这 类 变量 间 的 关系 称 
为 函数 关系 ; 男 一 类 是 变量 间 关 系 不 存在 完全 的 确定 性 ， 不 能 用 精确 的 数学 公式 来 表示 ， 
这 些 变量 间 都 存在 着 十 分 密切 的 关系 ， 但 不 能 由 一 个 或 几 个 变量 的 值 精确 地 求 出 另 一 个 
变量 的 值 ， 这 些 变量 间 的 关系 称 为 相关 关系 ， 存 在 相关 关系 的 变量 称 为 相关 变量 。 

相关 变量 间 的 关系 有 两 种 : 一 种 是 平行 关系 ， 即 两 个 或 两 个 以 上 变量 之 间 相 互 影响 ; 
另 一 种 是 依存 关系 ， 即 一 个 变量 的 变化 受 另 一 个 或 几 个 变量 的 影响 。 相 关 分 析 是 研究 呈 
平行 关系 的 相关 变量 之 间 的 关系 ， 而 回归 分 析 是 研究 呈 依 存 关系 的 相关 变量 间 的 关系 。 
表示 原因 的 变量 称 为 日 变量 (independent variable) ， 表 示 结 果 的 变量 称 为 因 变 量 (dependent 
variable ) 。 


变量 间 的 关系 及 分 析 方 法 如 下 : 
函数 关系 一 有 精确 的 数学 表达 式 (数学 模型 ) 
E | (确定 性 关系 ) 
A 平行 关系 p NER CE (#4. 1. 1) 
X (相关 分 析 ) mE 复 相关 分 析 (L 4. 3. 2) 
Ж | 相关 关系 多 元 相关 分 析 上 典型 相关 分 析 ( 见 11 章 ) 
( 非 确定 性 关系 ) mE 直线 回归 分 析 ( 见 4.1.2) 
依存 关系 | ЖИЙИ шанак (к 431) 
(回归 分 析 ) 多 元 线性 回归 分 析 (L 4.2) 
АВОИ et 


4.1.1 简单 相关 分 析 的 R 计算 


相关 分 析 就 是 通过 对 大 量 数字 资料 的 观察 ， 消 除 偶 然 因素 的 影响 ， 探 求 现象 之 间 相 
关 关 系 的 密切 程度 和 表现 形式 。 研 究 现象 之 间 相 关 关系 的 理论 方法 称 为 相关 分 析 法 。 

在 经 济 系统 中 ， 各 个 经 济 变量 常常 存在 密切 的 关系 ， 例 如 经 济 增长 与 财政 收入 、 人 
均 收 入 与 消费 支出 等 。 在 这 些 关 系 中 ， 有 一 些 是 严格 的 函数 关系 ， 这 类 关系 可 以 用 数学 
表达 式 表 示 出 来 。 例 如 ， 在 价格 一 定 的 条 件 下 ， 商 品 销售 额 与 销售 量 的 依存 关系 。 还 有 
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一 些 是 非 确定 的 关系 ,一 个 变量 产生 变动 会 影响 其 他 变量 ， 使 其 产生 变化 。 其 变化 具有 
随机 的 特性 ， 但 是 仍然 遵循 一 定 的 规律 。 肾 数 关 系 很 容易 解决 ， 而 那些 非 确定 的 相关 关 
系 才 是 我 们 所 关心 的 问题 。 因 为 在 经 济 系统 中 ， 绝 大 多 数 经 济 变 量 之 间 的 关系 是 非 严格 
的 、 不 确定 的 。 

相关 分 析 以 现象 之 间 是 否 相 关 、 相 关 的 方向 和 密切 程度 等 为 主要 人 研究 内 容 ， 它 不 区 
别 自 变 量 与 因 变 量 ， 也 不 关心 各 变量 的 构成 形式 。 其 主要 分 析 方 法 有 绘制 相关 图 、 计 算 
相关 系数 和 检验 相关 系数 。 

1. 两 变量 线性 相关 系数 的 计算 

在 所 有 相关 分 析 中 ， 最 简单 的 是 两 个 变量 之 间 的 线性 相关 ， 它 只 涉及 两 个 变量 。 而 
且 一 变量 数值 发 生变 动 ， 另 一 变量 的 数值 也 随 之 发 生 大 致 均等 的 变动 ， 其 各 点 的 分 布 在 
平面 图 上 近似 地 表现 为 一 直线 ， 这 种 相关 关系 就 称 为 直线 相关 〔〈 也 叫 线性 关系 ) 。 

线性 相关 分 析 是 用 相关 系数 来 表示 两 个 变量 间 相 互 的 线性 关系 ， 并 判断 其 密切 程度 
的 统计 方法 。 总 体 相关 系数 通常 用 p 表示 。 其 计算 公式 为 : 

Cov( x,y) _ Oy 


~ var( x ) var( y) усо; 
AF, o; 为 变量 х 7796, о, 为 变量 y 的 总 体 方差 ，o, 为 变量 x 与 变量 y 的 总 
体 协 方差 。 相 关系 数 p 没有 单位 , 在 -1 至 +1 范围 内 波动 ， 其 绝对 值 愈 接近 1， 两 个 变 
量 间 的 直线 相关 愈 密切 ; 愈 接近 0， 相关 愈 不 密切 。 
在 实际 中 ， 我 们 通常 要 计算 样本 的 线性 相关 系数 (Pearson 相关 系数 ) ， 其 计算 公 


pra- m... zy m L(x-xz)(y-y) 


5*5 l.l, 4/X(x-x)X(-») 
式 中 ，s* 为 变量 x EEN, s 为 变量 y 的 样本 方差 ，s。 为 变量 x 与 变量 y 的 样本 
协 方差 ，!.. 为 x 的 离 均 差 平方 和 ， 1, 为 y 的 离 均 差 平方 和 ，1,, 为 * 与 7 的 离 均 差 乘积 之 
和 ， 人 简称 为 离 均 差 积 和 ， 其 值 可 正 可 负 。 实 际 计算 时 可 按 下 式 简化 : 


ы = («-#)° = ga -Z 
„= (у) = Ху – 0) 


Ll, 2 XYX(x-x)(y-y) = Zay 0L ) 


[@J4-1] (2012-2) 身高 与 体重 的 相关 关系 分 析 。 下 面 以 例 2 -2 的 身高 与 体重 
数据 分 析 之 。 首 先 通 过 散 点 图 看 身高 与 体重 的 关系 ， 见 下 图 。 
为 了 使 大 家 进一步 熟悉 R 语言 编程 ， 我 们 先 建 立 一 个 离 均 差 积 和 晴 数 1„: 
1, =556. 9,1,, =813,1, =645. 5 


| 
r=— -04.5 0.9593 


LL, 4556.9 x813 


4 ”相关 分 析 与 回归 分 析 及 愉 使 用 Ce 5 


;>xl =e(171,175,159,155 ,152,158 ,154 ,164 ,168 ,166,159,164)  #5 ° 
1>72 =e(57,64,41,38,35,44,41,51,57,49 ,47 ,46) # 体 重 


i > plot(x,y) 


35 40 45 SO 55 60 65 


iH] 25 ЖЖП РЕЖ 

:> ly <- function( x, y) | n = length( x) ;sum(x жу) 一 sum(x) *sum( y)/n| 
i» 1ху(х,х) 

! [1]556.9 

:> by(y,y) 

' [1]813 

:>lxy(x,y) 

[11645.5 

i» (re Ixy(x, y)7sqt(Ixy(x,x) ж1ху(у,у))) 


«== - алое ос —————————————————————— '—ÀÁÁ ————- 


r 为 正 值 ， 说 明 该 组 人 群 的 身高 与 体重 之 间 呈 现 正 的 线性 相关 关系 。 至 于 相关 
系数 — 尚 需 进 行 假设 检验 。 下 面 是 R 语言 中 自 带 的 求 相 关系 数 的 函数 。 


相关 系数 计算 函数 cor( ) 的 用 法 


cor( x,y = NULL, method = c( " pearson" ," kendall" ," spearman" ) ) 
x А 1 ,矩阵 或 数据 框 
y 为 空 或 数值 器 量 .矩阵 或 数据 框 


method 为 计算 方法 ,包括 "pearson" ," kendall" 和 " spearman" 三 种 ,默认 "pearson" 


2. 相关 系数 的 假设 检验 | 

r 与 其 他 统计 指标 一 样 ， 也 有 抽样 误差 。 从 同一 总 体内 抽取 若干 大 小 相同 的 样本 ， 各 
样本 的 相关 系数 总 有 波动 。 要 判断 不 等 于 0 的 r 值 是 来 自 总 体 相关 系数 p =0 的 总 体 还 是 
XE B ps0 的 总 体 ， 必 须 进行 显著 性 检验 。 

由 于 来 自 p =0 的 总 体 的 所 有 样本 相关 系数 呈 对 称 分 布 ， 故 r 的 显著 性 可 用 : 检验 来 
进行 。 根 据 例 4 -1 的 资料 ， 对 r 进行 1 检验 的 步骤 为 : 

(1) 建立 检验 假设 , Н,:р=0,Н, :рз0(а =0. 05) 

(2) 计算 相关 系数 r 的 上 值 : 


60 . @ = 多 元 统计 分 析 及 PR 语言 建 机 
г-0 0.9593 /31- 


L ` wEV rrrrrr ЫЕ =] 
] = 4 1 - 0. j 
n – 2 
:>n=length(x) О í í í í í í í í í ss 
i»t, =r/sqn((1-r"2)/(n -2))#H Y i 


(3) 计算 1 值 和 P 值 ， 作 结论 
相关 系数 检验 函数 сог. test( ) 的 用 法 


cor. test( x,y,alternative = c( " two. sided" ," less" ," greater" ) , 
method = c( " pearson" ," kendall" , " spearman" , -*-) 

х,у 为 数据 向 量 ( 长度 相同 ) 

alternative 为 备 择 假 设 ,"two. sided" ( 双 侧 )," greater" ( 右 侧 ) 或 "less" ( Zz Al) 


method 为 计算 方法 ,包括 "pearson" ," kendall" fil" spearman" 三 种 


和 


: > сог. test( x, y) 
| Pearson's product — moment correlation i 
' data:x and y ' 
| t=10.74,df - 10, p - value - 8. 21e - 07 : 
| alternative hypothesis :true correlation is not equal to 0 i 
‚ 95 percent confidence interval: ' 
: 0.8575 0.9888 | 
i i 
| i 
i i 


! sample estimates: 


CE ш 5 5 ш 5 4 шш 4 4 4ш 4 4 4ш 4 544 4 4 4ш 44 4ш 45% ш 5 4ш 4444 T ooo ooo 


由 于 p=8.21 хе” <0.05， 于 是 在 显著 性 水 平 a = 0. 05 上 拒绝 Н,, #5 Н,, п 
为 该 人 群 身 高 与 体重 呈现 正 的 线性 关系 。 

ЇЕ: 相关 系数 的 显著 性 与 自由 度 有 关 ， 如 n=3, n-2=1 时 ,虽然 r= -0.907 0, 
却 为 不 显著 ; 当 n=400 时 ， 即 使 r= -0.100 0， 亦 为 显著 。 因 此 不 能 只 看 7 的 值 就 下 结 
论 ， 还 需 看 其 样本 量 的 大 小 。 


4. 1.2 一 元 线性 回归 分 析 的 R 计算 


一 、 一 元 线性 回归 模型 的 描述 

一 元 线性 回归 模型 是 通过 回归 分 析 研 究 两 变量 之 间 的 依存 关系 ， 将 变量 区 分 出 自 变 
量 和 因 变 量 ， 并 研究 确定 自 变 量 和 因 变 量 之 间 的 具体 关系 的 方程 形式 。 分 析 中 所 形成 的 
这 种 关系 式 称 为 回归 模型 ， 其 中 以 一 条 直线 方程 表明 两 变量 依存 关系 的 模型 叫 单 变 量 
(一 元 ) 线性 回归 模型 。 其 主要 步骤 包括 : 建立 回归 模型 、 求 解 回归 模型 中 的 参数 、 对 回 
归 模 型 进行 检验 等 。 

二 、 一 元 线性 回归 模型 的 参数 估计 

在 因 变 量 和 自 变 量 所 作 的 散 点 图 中 ， 如 果 趋 势 大 致 呈 直 线 型 ， 则 可 拟 合 一 条 直线 
方程 。 


4 相关 分 析 与 回归 分 析 及 R 使 用 owe 6 


直线 方程 的 模型 为 : y=a+b 

AF, Y 为 因 变 量 y 的 估计 值 ，x 为 自 变量 的 实际 值 ，ae、 为 待 估 参 数 。 其 几何 意义 
E: a 是 直线 方程 的 截 距 ， 是 斜率 。 其 经 济 意义 是 : a 是 当 x 为 0 时 y 的 估计 值 ,! 是 
4 x 每 增加 一 个 单位 时 y 增加 的 数量 。 也 叫 回 归 系 数 。 

配合 回归 直线 的 目的 是 要 找到 一 条 理想 的 直线 ， 用 直线 上 的 点 来 代表 所 有 的 相关 点 。 
数理 统计 证 明 ， 用 最 小 平方 法 配合 的 直线 最 理想 ， 最 具有 代表 性 。 计 算 a УЬ 常用 最 小 
АЗ [ДУГ (least square estimate) 的 方法 。 

由 散 点 图 4 -1 可见， 虽然 x 与 y 间 有 直线 趋势 存在 ， 但 并 不 是 一 一 对 应 的 。 每 一 个 
值 x; 与 对 y(i=1,2,…,n) 用 回归 方程 估计 的 7 {Н ( 即 直线 上 的 点 ) 或 多 或 少 存在 一 定 
的 差距 。 这 些 差距 可 以 用 (yi -7;) 来 表示 ， 称 为 估计 误差 或 残 差 (residual) 。 要 使 回归 方 
程 比较 “理想 ， 很 自然 会 想到 应 该 使 这 些 估计 误差 尽量 小 一 些 ， 也 就 是 使 估计 误差 平 
方 和 


Q2 У (у: $) = XU - (a +bx,) ]? 

达到 最 小 。 对 Q RX: Fa 和 6 的 偏 导数 ， 并 分 别 令 其 等 于 零 ， 可 得 ; 
XG; 3), - 3) 

à -#)' 

Ub. „жк x 的 离 差 平方 和 ，1,, 表 示 x 与 y 的 离 差 积 和 。 

三 、 建 立 直线 回归 方程 的 步 马 

由 散 点 图 观察 实测 样本 资料 是 否 存在 一 定 的 协同 变化 趋势 ， 这 种 趋势 是 否 是 直线 的 ， 
然后 根据 是 否 有 直线 趋势 确定 应 拟 合 直线 还 是 曲线 。 由 本 例 资料 绘制 的 散 点 图 可 见 ， 身 
高 与 体重 之 间 存在 明显 的 线性 趋势 ， 所 以 可 考虑 建立 直线 回归 方程 。 


要 考察 x 5 y 之 间 的 数量 关系 ， 需 建立 线性 回归 方程 ， 以 便 进行 分 析 、 估 计 和 预测 。 
【 例 4 -2】 下 面 仍 以 例 2 -2 的 数据 来 介绍 建立 直线 回归 方程 的 步骤 。 


a ш шш ш ш шш ш ош ш ш ш ша aa db | 


b 


l 
=, a=y-bx 


i>a = mean( y)- b *mean( x) : 
1I>c(a=a,b=b) | 
a b | I 
:—140.364 — 1.159 ' 


br 


于 是 得 到 回归 方程 : у = -140. 364 +1. 159x 

建立 回归 方程 后 ， 一 般 应 将 回归 方程 在 散 点 图 上 表示 出 来 ， 也 就 是 作 回 归 直 线 。 作 
图 时 可 在 自 变 量 x 的 实测 范围 内 任 取 两 个 相距 相对 较 远 的 数值 x х, 代 和 人 回归 方程 ， 计 
78:18:58] 5, 2 ,用 (zi ,为 ) C ,入 ) 两 点 即 可 作出 回归 直线 ， 如 下 图 所 示 。 
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Puck... = = = шш = о шот=о то тот= ото чт тот == жое шш ө ож ч 4 2 6—2 шО4 ш ш ш шш Шш шш ш ш шш ш а шш ш ш шш ж шшш = ш шш 2 ЖЕ ж чш тото u ae от т отт от т ттт ттт тт тт т т тт тот отт = от тт точ тт = = ш = = == = = == = s... 


; » plot( x, y) ;lines(x,a +b жх) 


35 40 45 50 55 60 65 


| 


四 、 回 归 系 数 的 假设 检验 
由 样本 资料 建立 回归 方程 的 目的 是 对 两 变量 的 回归 关系 进行 推断 ， 也 就 是 对 总 体 回 
归 方 程 作 估计 。 由 于 抽样 误差 ， 样 本 回归 系数 往往 不 会 恰好 等 于 总 体 回 归 系 数 B。 如 果 
总 体 回归 系数 8 =0， JEZ y 是 常数 ， 无 论 * 如 何 变化 ， 都 不 会 影响 y， 回 归 方 程 就 没有 意 
义 。 当 总 体 回 归 系 数 B6=0 时 ， 由 样本 资料 计算 得 到 的 样本 回归 系数 5b 不 一 定 为 0， 所 以 
有 必要 对 估计 得 到 的 样本 回归 系数 b 进行 检验 。 检 验 一 般 用 方差 分 析 或 1 检验， 两 者 的 检 
验 结果 是 等 价 的 。 方 差分 析 主 要 是 针对 整个 模型 的 ， 而 上 检验 是 关于 回归 系数 的 。 
1. 方差 分 析 
经 回归 分 析 ， 因 变量 y 实测 值 的 离 均 差 平方 和 SS = yi. (yi -了 )”=1,,， 被 分 解 成 两 
个 部 分 。 第 一 部 分 为 SSs = Xia (y, - 1) ， 其 本 质 是 估计 误差 的 平方 和 ， 这 部 分 反映 了 
这 组 实测 值 y; HER T. x XE y 的 线性 影响 后 剩 下 的 变异 。 另 一 部 分 为 SS, = У (Y 7»), 
反映 了 x 对 y 的 线性 影响 ， 称 为 回归 平方 和 或 回归 贡献 ， 不 难 证 明 SS, = 55, + SS, 
根据 方差 分 析 的 原理 ， 判 断 回归 贡献 是 否 有 意义 可 以 用 方差 分 析 进 行 检 验 。 这 时 总 
变异 的 自由 度 为 df =n -1; 由 于 只 有 一 个 自 变 量 ， 所 以 回归 自由 度 df, =1; 误差 自由 度 
df, =dfr -dfr=n -2。 有 了 离 差 平方 和 与 自由 度 ， 妈 可 分 别 计算 回归 均 方 与 误差 均 方 ， 进 
而 得 到 FF 值 。 计 算 公 式 如 下 : 
SS, SS, MS, 
MS, “ш =. F = us, 
其 中 ， 


55, = Y ($, - y) = Qi - 3) (x - 3) -UL, 


55, = X (y, -30! = XG,-3) - XGi 23? 
对 例 4 -2 作 方差 分 析 : 

Н,: 模型 无 意义 ， 即 B=0 

H: 模型 有 意义 ， 即 B 关 0 

SS, =1,, =813.0 

SS, =bl,, =1. 159 x 645. 533 =748. 17 

SS, = SS, — SS, 2813. 0 — 748. 17 = 64. 83 
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748.17 _ _ 64. 83 748. 17 

М5, = — г =748.17,MSe = ig =6. 483,Е = 483 

F, ,(1,n -2) =Е,„(1,22) 24.3, ЊҒЕ=115.4>4.3, ЫР <0.01, FEE 


а =0. 05 水 平 处 拒绝 H,， 即 本 例 回 归 系 数 有 统计 学 意义 ,x tj у 间 存 在 直线 回归 关系 。 


le акы ender hh ne er TRAMA TO nn si ht 


‘>SST = Іху(у,у) 
|» 99 e b ehy(x,y) 
' > SSE = SST - SSR 


=115.4 


:> MSR = SSR/I 
|> MSE = SSE/(n -2) | 
: > Е = MSR/MSE | 
;>e(SST = SST,SSR = SSR,SSE = SSE, MSR = MSR, MSE = MSE,F = F) 
: SST SSR SSE MSR МЕ F ' 
:813.000 — 748.173 64.827 748.173 6.483 115.412 __________ 
2. 1 检验 


当 B=0 成 立时 ， 样本 回归 系数 b 服从 正 态 分 布 。 所 以 也 可 用 :检验 的 方法 检验 5b 是 
否 有 统计 学 意义 。 检 验 时 用 的 统计 量 为 : 
=" B (п -2) 


$ $ 
E J. _ 


/ X i -3) EN 


Ziil Ji y) l i n" 
eu m^ = /MS, 


上 式 中 ， ананна ( standard error of estimate) ， 是 误差 的 
均 方 根 ， 它 反映 了 因 变 量 y 在 扣除 自 变 量 x 的 线性 影响 后 的 离散 程度 。s*,.: 可 以 与 y 的 标 
准 差 s, 比较 ， 从 而 可 看 出 自 变量 x 对 y 的 线性 影响 的 大 小 。 上 式 中 ，s, 称 为 样本 回归 系 
ЖЬ 的 标准 误差 。 

对 例 4 -2 tR: Н,: B=0, Н,; 850 
/MS, = V6. 483 =2. 546 1 
546 1 


$, = 


5, s =0. 107 9 
°  /556.9 

1. 159 
t, =o ото = 10.74 


lt t£. wa =ti_aoain 72-228 1,P «0.05, FÆ, Ж а 20.05 水 平 处 拒绝 H,, 
接受 H., ， 即 本 例 回 归 系 数 有 统计 学 意义 ，x 5 y 间 存 在 回归 关系 。 


[LLL LLL DLL LLL 4 5 шш ж жЕ 4 ШШ 4 © ШО Ф ШШ ® © (ШЕ ОФ ШЕ ОФ (ШЕ Ф © ШО ® ШЕ (ШЕ ОФ (ШШ О © ШШ ШЕ | 


' > sy. x = sqrt( MSE) 

i» sb = sy. x/sqrt( lxy(x,x)) 

! >t= bysb 

>ta=qt(1 -0.05/2,n -2) 
I>ce(sy.x=sy.x,sb=sb,t=t,ta = ta) 
sy. x sb t ta 
2.5461 0. 1079 10. 7430 2.2281 
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上 面 我 们 通过 R 语言 编程 的 方式 对 两 变量 进行 了 回归 分 析 ， 目 的 是 使 大 家 熟悉 R 语 
言 的 编程 技巧 。 实 际 上 ， 在 进行 线性 回归 分 析 时 ， 可 直接 应 用 R 语言 自身 的 拟 合 线性 模 
型 的 函数 Im 进行 ， 下 面 我 们 就 用 lm 函数 进行 线性 回归 分 析 。 


线性 回归 拟 合 函 数 lm{ ) 的 用 法 


Im( formula, ++- ) 
formula 为 模型 公式 ,如 y~x 
“…” 为 其 他 选项 , 略 


【 例 4 -3】 我 们 知道 ， 财 政 收 入 与 税收 有 密切 的 依存 关系 。 以 下 收集 了 我 国 1978 年 


改革 开放 以 来 到 2008 年 共 31 年 的 税收 (х, BACI) 和 财政 收入 (y, BILIC) 数据 ， 
见 表 4 -1， 试 分 析 税 收 与 财政 收入 之 间 的 依存 关系 。 


表 4-1 1978—2008 年 税收 与 财政 收入 数据 ( 数据 见 mvstats. xls : d4. 3) 


年 份 


y x 年 份 y x 

1978 11. 326 2 5.192 8 1994 52.181 0 51.268 8 
1979 11. 463 8 5.378 2 1995 62. 422 0 60. 380 4 
1980 11. 599 3 5.717 0 1996 74. 079 9 69. 098 2 
1981 11. 757 9 6. 298 9 1997 86. 5114 82. 340 4 
1982 12. 123 3 7.000 2 1998 98. 759 5 92. 628 0 
1983 18. 669 5 7.5559 1999 114. 440 8 106. 825 8 
1984 16. 428 6 9.473 5 2000 133. 952 3 125. 815 1 
1985 20. 048 2 20. 407 9 2001 163. 860 4 153. 013 8 
1986 21.220 1 20. 907 3 2002 189. 036 4 176. 364 5 
1987 21. 993 5 21. 403 6 2003 217. 132 3 200. 173 1 
1988 23. 572 4 23. 904 7 2004 263. 964 7 241. 656 8 
1989 26. 649 0 27. 274 0 2005 316. 492 9 287. 785 4 
1990 29. 371 0 28. 218 7 2006 387. 602 0 348. 043 5 
1991 31. 494 8 29. 901 7 2007 513.217 8 456. 219 7 
1992 34. 833 7 32. 969 1 2008 613. 303 5 542. 196 2 
1993 43. 489 5 42. 553 0 


要 考察 它们 之 间 的 数量 关系 ， 需 建立 线性 回归 方程 ， 以 便 进行 分 析 、 估 计 和 预测 。 
步骤 如 下 : 

(1) ЛЖ. 

> yx = read. table( " clipboard" , header = T) 
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(2) 拟 合 模型 。 


= =ч== == = = шш ш ш шш ш 0 == шош аш єт от єт т оз тт ш ш ыт тот тт от т тт от от тт т т тт т от тт тот тт тот тт от т тт чк чк тт тот тт тот тт от т ожт тот тт т т тт тот ттт т т теш чк т чш тот AA отт т оч эш точ шв точ III IL IIT] 


(Intercept) x 
— ]. 197 1.116 


@ == w... 4-4 b K ЧР W V u x s m s d s 


于 是 得 到 回归 方程 : Y= -1.197 +1. 116x。 
(3) 作 回 归 直 线 。 


i pi de et SE d i o ir m vt i o icr Qu es he td tbe 


x ° . 
© 
' wc ' 
- | 
' = 
= 
М с 
+ 
= . 
| T 
x S i 
i T 
l c 
' 5 ' 
| Ж | 
| ° | 
i О 100 200 300 400 500 0 100 200 300 400 500 ; 
' X x i 
(4) 回归 方程 的 假设 检验 。 

1) 模型 的 方差 分 析 (ANOVA). 

ji>anova(fm) ҮТ 
i Analysis of Variance Table ' 
: Response ; у i 
| Df Sum Sq Mean Sq F value Pr( >F) 
i x l 712076. 834 712076.834 27428.1326 — <2.22e -16 *** | 
i Residuals 29 752. 885 25. 962 
i 


heres Ot 


由 于 已 <0.05， 于 是 在 a = 0. 05 水 平 处 拒绝 H,， 即 本 例 回 归 系 数 有 统计 学 意义 ， 
x у 间 存 在 直线 回归 关系 。 
2) 回归 系数 的 上 检验。 


tld topas pt a ERN mm 


i ' > summary( fm) ] 
! lm(formula =y ~ x) 
Residuals ; 
; Min IQ Median 3Q Max | 
: —6.6295697  -3.6919399 –1. 5350531 5. 3382063 11. 4319756 
| Coefficients : | 
| Estimate Std. Error t value Pr( » 1 tl ) x 
! (Intercept) —1.196562984 1. 161245228 -1.03041 0.31133 
i I 


x 1. 116225390 0. 006739905 165. 61441  «2e- 16 *** 


和 
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和 wm 和 


1 I 
: Signif. codes:04 ***'0.001° **'0.01° * '0. 05. *. '0.1*. "1 
! Residual standard  error:5.0952478 on 29 degrees of freedom i 
' Multiple R -squared:0. 99894381 , Adjusted R — squared :0. 99890739 ' 
I I 


和 可 一 一 一 一 上 -一 一 -一 < 一 二 二 < 过 着 = 


НТ Р <0. 05, РЕ о =0. 05 水 平 处 拒绝 H,, HESE Н, ， 即 本 例 回 归 系 数 有 统计 学 
意义 ,x 与 y 间 存在 回归 关系 。 

$a, Ж] 2 = F(165.614 4° 227 428.132 6), 4 df, =1 时, 上 值 的 平方 等 于 下 值 
(df, 即 为 c АНЕ n -2)。 所 以 说 当 自 变量 只 有 一 个 时 ， 方 差分 析 与 上 检验 的 结果 是 等 
价 的 。 但 在 下 面 的 多 元 分 析 中 ， 方 差分 析 与 1 检验 的 结果 并 不 等 价 。 


4.2 多 元 线性 回归 分 析 


回归 分 析 研 究 的 主要 对 象 是 客观 事物 变量 间 的 统计 关系 。 它 是 建立 在 对 客观 事物 进 
行 大量 实 验 和 观察 的 基础 上 ， 用 来 寻找 隐藏 在 看 起 来 不 确定 的 现象 中 的 统计 规律 的 统计 
方法 。 它 与 相关 分 析 的 主要 区 别 为 : 一 是 在 回归 分 析 中 ,解释 变量 称 为 自 变 量 ， 被 解释 
变量 称 为 因 变 量 ， 处 于 被 解释 的 特殊 地 位 ; 而 在 相关 分 析 中 ， 并 不 区 分 自 变 量 和 因 变 量 ， 
各 变量 处 于 平等 地 位 。 二 是 在 相关 分 析 中 所 涉及 的 变量 全 是 随机 变量 ; 而 在 回归 分 析 中 ， 
因 变 量 是 随机 变量 ， 而 自 变 量 可 以 是 随机 变量 ， 也 可 以 是 非 随机 变量 。 三 是 相关 分 析 研 
究 主要 是 为 刻画 两 类 变量 间 的 线性 相关 的 密切 程度 ; 而 回归 分 析 不 仅 可 以 揭示 自 变量 对 
因 变 量 的 影响 大 小 ， 还 可 以 用 回归 方程 进行 预测 和 控制 。 


4.2.1 多 元 线性 回归 模型 的 建立 


上 一 节 已 经 介绍 了 一 元 线性 回归 分 析 ， 它 研究 的 是 一 个 因 变 量 与 一 个 自 变 量 间 呈 直 
线 趋势 的 数量 关系 。 在 实际 中 ， 常 会 遇 到 一 个 因 变 量 与 多 个 自 变 量 数量 关系 的 问题 。 如 
在 例 4 -3 中 考察 的 是 1978 一 2008 年 我 国 财政 收入 与 税收 之 间 的 线性 关系 ， 如 果 我 们 想 
进一步 考察 财政 收入 和 国民 生产 总 值 、 税 收 、 进 出 口 贸易 总 额 、 经 济 活动 人 口 之 间 的 依 
存 关 系 ， 就 需要 建立 多 元 回归 模型 。 与 一 元 线性 回归 ( 直线 回归 ) 类 似 ， 一 个 因 变 量 与 
多 个 自 变量 间 的 这 种 线性 数量 关系 可 以 用 多 元 线性 回归 方程 来 表示 。 

y=bo bx, +b,x, +++ +b x, 

AF, b, 相当 于 直线 回归 方程 中 的 常数 项 a,b (i= 1,2,…,p) 称 为 偏 回 归 系 数 ( par- 
tial regression coefficient) ， 其 意义 与 直线 回归 方程 中 的 回归 系数 b 相似 。 当 其 他 自 变 量 对 
因 变量 的 线性 影响 固定 时 ，6b, 反映 了 第 i 个 自 变 量 x,; 对 因 变 量 y 线性 影响 的 大 小 。 这 样 
的 回归 称 为 因 变 量 y 在 这 一 组 目 变量 x 上 的 回归 ， 习 惯 上 称 之 为 多 元 线性 回归 模型 。 

1. 多 元 线性 回归 模型 的 一 般 形 式 

随机 变量 y 与 一 般 变量 x 的 线性 回归 模型 为 : 

у = +В,х, + B,x; +…+Bxp + £ 

当 我 们 得 到 组 观测 数据 (x ,x,,… ,x, ,7y;) 时 ,i =1,2,…,n， 线 性 回归 模型 可 表 

RA: 
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Yı =% *Bixyi + Boxi; + *** t B,xi, +e, 


Yı = В, +Bix2 + B,xy, +* + B,x;, +E 


Ya = В, *Bix, +B ma vr +85. tE, 


将 其 写成 矩阵 形式 y= ХВ +e, 其 中 ， 


yi l xa з, cU Xip Bo e, 

Уз l x Xn cU Xp В; E 
ya. 79 ” g| e= 

Yn l x, X2 cU X, B, є, 


ЖХ УТРЕ, 8 为 回归 系数 癌 量 。 
2. 线性 回归 模型 的 基本 假设 。 
由 于 一 元 线性 问 归 比 较 简单 ， 其 趋势 图 可 用 散 点 图 直观 显示 ， 所 以 ， 我 们 对 其 性 质 
和 假定 并 未 作 详 细 探 讨 。 实 际 上 ， 我 们 在 建立 线性 回归 模型 前 ， 需 要 对 模型 作 一 些 假 定 。 
经 典 线性 回归 模型 的 基本 假设 前 提 为 ; 
(1) 解释 变量 一 般 来 说 是 非 随机 变量 。 
(2) 误差 等 方差 及 不 相关 假定 (G6 - M RTT) : 
E(6,) z0,121,2,---,n 
ЖИИ ij -1,2,--,n 
(3) 误差 正 态 分 布 的 假定 条 件 为 : 
є, ^ N(0,0?) ,i=1,2,.,n 
(4) m>p， 即 要 求 样 本 容量 个 数 多 于 解释 变量 的 个 数 。 
3. 多 元 回归 参数 的 最 小 二 乘 估计 
从 多 元 线性 模型 的 矩阵 形式 y = ХВ +e 可 知 ， 若 模型 的 参数 B 的 估计 量 B 已 获得 ， 则 


ў=ХВ, ҒЗ е = y, -多 ， 根 据 最 小 二 乘 的 原理 ， 所 选择 的 估计 方法 应 使 估计 值 55 
观察 值 y 之 间 的 残 差 e, 在 所 有 样本 点 上 达到 最 小 ， 即 使 


Q= È (y: -$0* =ғ'е = (y - X8)' (y - XB) 
达到 最 小 ， 根 据 微 积分 求 极 值 的 原理 ，0 对 有 求 导 且 等 于 0， 可 求 得 使 Q 达到 最 小 的 8, 
这 就 是 所 谓 的 最 小 二 乘 (LS) 法 。 
aQ _ aly ~ XB)'(y - XB) 
Әв ag 
= (y  -B'X') (y - XB) 
aB 


д , ua , , » = P. , " 
ИИИ 


= (yy 一 28'X'y + B'X'XB) 
aB 


Ы ЕРЕ 


-.-2X'y +2Х'ХВ 
= (0 
Х'ХВ = X'y 
Bis = (X'X) X'y 
另外 还 可 证 明 ， 在 正 态 性 假定 下 ， 回 归 参 数 B 的 LS 估计 与 极 大 似 然 (ML) 估计 完 
全 相同 ， 即 Bw =Bs， 关 于 回归 系数 的 极 大 似 然 估计 参见 有 关 文 献 。 
【 例 4 -4】 财政 收入 多 元 分 析 。 
财政 收入 是 指 一 个 国家 政府 凭借 政府 的 特殊 权利 ， 按 照 有 关 的 法 律 和 法 规 在 一 定时 ， 
期 内 〈 一 般 为 一 年 ) 取得 的 各 种 形式 收入 的 总 和 ， 包 括 税 收 、 企 事业 收入 、 国 家 能 源 交 
通 重点 建设 基金 收入 、 债 务 收 入 、 规 费 收入 及 罚没 收入 等 。 财 政 收入 水 平 是 反映 一 国 经 
济 实力 的 重要 标志 。 本 例 共 取 五 个 变量 进行 分 析 ， 分 析 财 政 收 入 和 国内 生产 总 值 、 税 收 、 
进出 口 贸易 总 额 、 经 济 活动 人 口 之 间 的 关系 。 
HH, 为 年 份 ，y 为 财政 收入 〈 百 亿 元 ) х, 为 国内 生产 总 值 ( 百 亿 元 ) x, 为 税 
收 〈 百 亿 元 ) x, 为 进出 口 贸易 总 额 ( 百 亿 元 ) х, 为 经 济 活动 人 口 (ИЛА) 
本 案例 的 样本 数据 来 自 中 国 统计 出 版 社 出 版 的 《中 国 统计 年 鉴 》 及 海关 总 署 〈 以 
2008 年 的 经 济 活动 人 口 为 测算 值 ) ， 数 据 时 限 为 1978 一 2008 年 ， 数 据 详 见 表 4 -2。 
在 例 4 -3 中 我 们 发 现 1978 一 2008 年 我 国 财政 收入 与 税收 之 间 的 确 存 在 线性 回归 关 
系 ， 为 了 进一步 考察 财政 收入 和 其 他 变量 之 间 的 数量 关系 ， 需 建立 多 元 线性 回归 方程 ， 
-以便 进 行 分 析 与 预测 ， 步 又 如 下 : 


表 4 -2 财政 收入 多 因素 分 析 数 据 (数据 见 mvstats. xls : d4. 4) 
t y x, x X3 X4 
1978 11. 326 2 36. 241 5.192 8 3. 550 406. 82 
1979 11. 463 8 40. 382 5. 378 2 4. 120 415. 92 
1980 11. 599 3 45. 178 5. 717 0 5. 700 429. 03 
2007 513.217 8 2 495. 299 456. 219 7 1 667. 402 786. 45 
2008 613. 303 5 3 006. 7 542. 196 2 1 778. 898 3 790. 48 
SE mvstats. xls: dd. 4 中 选取 B1: F32 区 域 , 然 后 拷贝 | 


| > yx = read. table( " clipboard" , header = T) 

i> (fm = Im(y ~ xl +x2 + x3 + x4, data = yx) ) 

| Im( formula =y ~ x1 + х2 + х3 + х4) 

Coefficients : 

! ( Intercept ) xl x2 x3 x4 
: 23.532109 —0.003387_ 1.164115 0. 000292  -0.043742 


和 
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于 是 得 到 多 元 线性 回归 方程 : 
$ =23. 532 109 - 0. 003 387x, +1. 164 115x, +0. 000 292x, –0. 043 742x, 

4. 标准 化 偏 回归 系数 

由 于 自 变 量 x(j=1,2,…,p) 与 因 变 量 都 是 有 单位 的 ， 从 数值 上 来 看 ， 它 们 样本 取 值 
的 极 差 会 有 很 大 的 差异 ， 均 数 与 标准 差 也 各 不 相同 ， 所 以 不 能 由 偏 回 归 系 数 的 大 小 直接 
说 明 对 因 变 量 线 性 影响 的 大 小 。 对 于 这 个 问题 常用 变量 标准 化 与 计算 标准 化 偏 回归 系 数 
的 方法 来 处 理 。 

对 每 一 个 变量 (包括 因 变量 ) 标准 化 后 ， 再 计算 方程 的 偏 回 归 系 数 ， 可 得 到 标准 化 


偏 回归 系数 ， 常 用 B” dem: 
Br=B (i=1,2,.,p) 


式 中 ，si(i=1,2,…,p) 与 s, 分 别 是 各 自 变 量 和 因 变 量 的 标准 差 。 
由 于 标准 化 后 各 变量 的 均值 为 0， 方差 为 1， 所 以 标准 化 后 的 多 元 回归 方程 一 定 是 通 


过 原点 的 ， 也 就 是 常数 项 B。 =0。 由 于 各 变量 的 标准 差 s (121,2, , p) 变 得 相同 ， 各 标 
准 化 偏 回归 系数 的 值 可 以 反映 各 自 变 量 在 其 他 自 变 量 固定 时 对 因 变 量 线 性 影响 的 大 小 ， 
也 可 相互 间 进 行 比较 。 

常用 的 统计 软件 都 能 给 出 标准 化 偏 回归 系数 ,但 R 语言 中 并 不 包含 计算 标准 回归 系 
数 的 函数 ， 因 此 我 们 编写 了 coef. sd 计算 之 。 例 4 -4 的 К 软件 给 出 标准 化 偏 回 归 系 数 如 
T: B = -0.017 45,8; =1. 042 4,8*=0.000 96,8; = -0.037 11， 由 标准 化 偏 回 归 系 数 可 
见 ， 税 收 对 财政 收入 的 线性 影响 最 大 。 


Pm 


: > library( mvstats ) ' 
i > coef. sd( fm) : 
i $ coef. sd | 
| xl x2 x3 x4 ' 

-0.017451 1.042352 0. 000963 -0.037105 ' 


' 
Ü< = S = p + + н an... н н а т бш = = ш .. Á... өш ө е ч» = т н .-.-..-.. єз = = = т т ч= = © == ет т == =т=т ILI ILI ILLI -.. -...-..-..-.. -.. = ж = җа ж ош -...-8... 


4.2.2 多 元 线性 回归 模型 的 检验 
1. 回归 方程 的 假设 检验 


由 样本 计算 得 到 的 这 些 偏 回归 系数 B 是 总 体 偏 回归 系数 В, 的 估计 值 。 如 果 这 些 总 体 
偏 回归 系数 等 于 0， 多 元 回归 方程 就 没有 意义 。 所 以 与 直线 回归 一 样 ， 在 建立 起 方程 后 
有 必要 对 这 些 偏 回归 系数 作 检验 。 对 多 元 回归 方程 作假 设 检验 也 可 以 用 方差 分 析 。 

因 变 量 у 的 离 均 差 平方 和 经 回归 分 析 被 分 解 成 两 个 部 分 。 

$$, = Y (y, - 3)! = X (y, -H) + Y ($ — 3)! =SS, +55, 

这 与 单 变量 回归 是 一 样 的 同时， 自由 度 也 被 分 解 成 两 个 部 分 。 其 中 ， 回 归 自 由 度 就 

是 自 变量 的 个 数 。 
df, 7 pdf; df, -dfr = (n-1) -p=n-p-1 
由 此 可 分 别 计算 两 部 分 的 均 方 : 


MS, = SSr/ dfr = EG, - y)“ /р 


uM ЕРИ 


MS, = SS,/ df, 

方差 分 析 的 检验 假设 是 有 ,: В, =p, =… =B, =0， 这 就 意味 着 因 变 量 y 与 所 有 的 自 变 
E x, 都 不 存在 回归 关系 ， 多 元 回归 方程 没有 意义 。 相 应 的 备 择 假设 如 : B,、B,、…、B， 
不 全 为 0，H, 成 立时 ， 有 : 


MS, 
Е = 5. FG: п-р-1) 


BU F BRA Е. НИИ ЕН АГЕ Е TANT 
过 程 可 以 归纳 成 如 表 4 -3 形式 的 方差 分 析 表 。 


表 4-3 多 元 回归 方差 分 析 表 
回归 SS, p MS, = SS,/p MS,/MS, 
误差 SS, n- p-1 MS, = SS,/ (n- p -1) 
总 计 SS, n-1 


2. 回归 系数 的 假设 检验 

多 元 回归 方程 有 统计 学 意义 并 不 说 明 每 一 个 偏 回归 系数 都 有 意义 ， 所 以 有 必要 对 每 
个 偏 回归 系数 作 检验 。 在 Bi=0 时 ， 偏 回归 系数 B,(j =1,2,…,p) 服 从 正 态 分 布 ， 所 以 可 
用 + 统计 量 对 偏 回 归 系 数 作 检验 。 | 

检验 假设 Hu: В, =0, Hy: B, 40. 4 H, EHE, ПВ ~ МВ, о (X'X) ^), i 
(X'X)"' = (cy)。 则 我 们 构造 的 上 统计 量 为 : 


„A j=1,2," 


J 


Жир, "UT 个 偏 回归 系数 的 标准 误差 ， 其 计算 比较 复杂 。 
ees 


与 单 变量 情形 一 样 ， ыа бийк кшш. 也 反映 了 因 变 量 y 在 扣除 
АВЕ x 的 线性 影响 后 的 变异 程度 。s,. ,可 以 与 7 的 标准 差 s, 比较 ， 从 而 可 看 出 所 有 自 
变量 x 对 y 的 线性 影响 大 小 。 

当 原 假设 Hy: Bi =0 成 立时 ， 上 面 的 上 统计 量 服从 自由 度 为 -PP-1 的 :1 分布。 给 定 
显著 性 水 平 w， 查 出 双 侧 检验 的 临界 值 _。,。 当 1 tj 1 24,201, EFR Hy: B; = 
0， 认 为 B 显著 不 为 零 ， 自 变量 x 对 因 变 量 y 的 线性 效果 显著 ; 当 1 tj1 <ta, BOE 
零 假设 Hy: В, =0， 认 为 为 零 ， 自 变量 x; 对 因 变 量 у 的 线性 效果 不 显著 。 

一 般 统 计 软 件 在 完成 多 元 回归 分 析 的 同时 都 会 输出 方差 分 析 与 上 检验 的 结果 。 其 中 ， 
t 检验 结果 给 出 了 每 个 偏 回归 系数 和 常数 项 的 值 、 标 准 误差 、: 值 与 相应 的 P 值 。 

例 4-4 的 方差 分 析 与 上 检验 的 结果 分 别 列 于 表 4 -4 与 表 4 -5。 


- 
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3⁄4 -4 方差 分 析 表 
来 源 离 均 差 平方 和 自由 度 均 方 F (& P {Ë 
回归 712 627. 364 5 4 178 156.841 1 22 890.8043 — «0.0001 
误差 202. 354 1 26 7. 782 9 
总 计 712 829.718 6 30 


KPP, s., = /MS, = /7.782 9 =2.789 8, 


ea. == шш ID DI ...... . же ы ш же ы = шт т =з ет ет єт т т III II III ll от т тт т т чт LLL III т т тт т т отт т т тт т т тт т т тт т т тт т т тт т т тт т т оҥ т эш тт т т тт т т тт = ж очу 


' > anova( fm) 
Analysis of Variance Table 


: 
| Response : y : 
i Df Sum Sq Mean Sq F value Pr( >F) | 
: xl 1 694627 694627 89259. 00 «2e - 16 жж» : 
c | — 17808 17803 2287. 63 «2e - 16 жя» | 
i x3 1 24 24 3. 06 0. 092 
E 1 174 174 22. 30 Те —05 жж 
| Residuals 26 202 8 | 
' 
| | 


t Tr 


x4 - 0. 043742 0. 009264 -4. 72 7. Ое – 05 *** 


表 4 -5 参数 估计 及 检验 
变量 回归 系数 B 标准 误 ss : Ë P 值 标准 回归 系数 B 

Xo 23. 532 1 4. 599 5.12 2447" e. 
x, - 0. 003 387 0. 008 1 - 0.42 0. 68 - 0. 017 45 
х, 1.164 11 0. 040 5 28. 75 <2e 7 1. 042 35 
x, 0. 000 292 0. 008 5 0. 03 0. 95 0. 000 96 
х, - 0. 043 74 0. 009 2 -4.72 7.0e 9 - 0. 037 10 

: > summary( fm) «3 

i Call: ' 

| Im( formula = y ~ xl + х2 + x3 + x4) 

| Residuals ; | 

! Min 1Q Median 30 Мах | 

: -5.02 -214 0.33 1.26 6.97 | 

i Coefficients . i 

| Estimate Std. Error tvalue Pr( >! tl) : 

: (Intercept) 23. 532109 4. 599071 5.12 2. Se -05 ss» — | 

i xi - 0. 003387 0.008075 -0.42 0. 68 | 

! 2 1. 164115 0.0404892 28.75 «2e - 16 +++ | 

E 0.000292 0.008553 ооз 0.97 : 


b.. EE 
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Pr 


'Signif. codes :0 ' xix ' 0. 001 ° жж '0. 01* «'0.05*. '0.1* "I : 

Residual standard error;2. 79 on 26 degrees of freedom | 

Multiple В - squared ; 1 , Adjusted R - squared ; 1 ! 

由 方差 分 析 结 果 可 见 ， 模 型 的 已 <0.000 1， 故 本 例 回归 模型 是 有 意义 的 。 由 i 检验 
结果 可 见 ， 偏 回归 系数 5, 、b 的 PP 值 都 小 于 0.01， 可 认为 解释 变量 税收 x, 和 经 济 活动 人 
O x, 显著 ; bi b, 的 P 值 大 于 0.50， 不 能 否定 B, =0, B, =0 的 假设 ， 可 认为 国内 生产 总 
值 x 和 进出 口 贸易 总 额 x, 对 财政 收入 y 没有 显著 的 影响 。 我 们 可 以 看 到 ， 国 内 生产 总 
值 、 经 济 活动 人 口 所 对 应 的 偶 回 归 系 数 都 为 负 ， 这 与 经 济 现实 是 不 相符 的 。 出 现 这 种 结 
果 的 可 能 原因 是 这 些 解 释 变 量 之 间 存 在 高 度 的 共 线 性 。 


4.3 多 元 线性 相关 分 析 


在 相关 分 析 中 ， 研 究 较 多 的 是 两 个 变量 之 间 的 关系 ， 称 为 简单 相关 。 当 涉及 的 变量 
为 三 个 或 三 个 以 上 时 ， 称 为 偏 相关 或 复 相 关 。 实 际 上 ， 仿 相关 〈 复 相关 ) 是 对 简单 相关 
的 一 种 推广 。 

在 有 些 情况 下 ， 我 们 只 想 了 解 两 个 变量 之 间 有 无线 性 相关 关系 ， 并 不 需要 建立 它们 
之 间 的 回归 模型 ， 也 不 需要 区 分 自 变量 和 因 变 量 ， 这 时 ， 就 可 用 较为 方便 的 相关 分 析 
方法 。 


4.3.1 ЖЯ НУТ 
Ж ху, x, v, х, ЖҢ1ЕЖАМЖ N. (и, ) 容 量 为 n ВЕД, ВАРЕНЕ ЕЕ: 


Xu Xp CU X 


x=| 2 > 7 79 
Kg 44 v * 
此 时 ， 任 意 两 个 变量 间 的 相关 系数 构成 的 矩阵 为 : 
mm 77 Tip 1 rg cn Fip 
P r r r 1 г 
виа > [= (т, 
ba Жа e Ж РГ ТИИ. 


其 中 ，r; 为 任意 两 个 变量 之 间 的 简单 相关 系数 ， 即 


3x; -x)(y;- y) 


ry = 
м NC - x) X,Cy; -y) 
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【 例 4-5】( 续 例 4 -4) 财政 收入 与 其 他 变量 间 的 相关 分 析 。 
计算 财政 收入 和 国民 生产 总 值 、 税 收 、 进 出 口 贸 易 总 额 、 经 济 活动 人 口 两 两 之 间 的 
相关 系数 ， 表 4 -6 给 出 了 相关 系数 的 假设 检验 统计 量 。 


表 4 -6 相关 系数 的 假设 检验 统计 量 
y x, X5 X3 X, 
y 0. 000 0 0. 000 0 0. 000 0 0 
x, 33. 267 0. 000 0 0. 000 0 0 
х, 165.614 39.214 | 0.0000 0 
х, 40.336 32.772 41. 560 0 
х, 5. 215 6. 752 5.514 5.389 
ik: 下 三 角 为 相关 系数 1 值 ， 上 三 角 为 概率 p 值 。 
а eicit alant 
| y xl x2 x3 x4 i 
Ly 1. 0000 0. 9871 0. 9995 0. 9912 0. 6957 : 
: xl 0. 9871 1. 0000 0. 9907 0. 9868 0. 7818 | 
i x) 0. 9995 0. 9907 1. 0000 0. 9917 0. 7154 : 
| 23 0. 9912 0. 9868 0. 9917 1. 0000 0. 7074 
:x4 0. 6957 0. 7818 0.7154 0.7074 1. 0000 : 


EIER. p REI MR a dee p E БАИ IRE UT Ec eo ЖЕНИ. ИИ. AE RR RETE Sen i-es d т, ЕЕН PNP L D. a EP A PSAi. 


pairs( x, ***) 


x JJ CBE PE SUCUS TE 


„== EE 


= = == т = те TI жож чт шош © тош т тош ш от тш тош тт тот тш тош шт тот тш тош тш тот тш тот то ож отш ж ош жш тот тш тош шш тош тш ош жш ® ж отш чож ты тот тт от от жш жож тт ж ож тш ж ж тш ж э шз = ж шш о а жь а ш эв ш ш шш в ш шш = ш ар 
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由 于 没有 现成 的 进行 相关 系数 矩阵 的 假设 检验 ， 下 面 编写 计算 相关 系数 的 上 值 和 P 值 
HI PAŽI corr. test( ) 。 


corr. test( X,***) 

X 为 数值 矩阵 或 数据 框 
‘>libray(mvstats) — — ОТ 
| > corr. test( yX) i 
y xl 0 х3 x4 | 
' y 0. 000 0. 000 0. 000 0. 000 0 ' 
; 33. 267 0. 000 0. 000 0. 000 0 
BE 165. 614 39. 214 0. 000 0. 000 0 
! 3 40. 336 32.772 41. 560 0. 000 0 р 
E" 5.215 6. 752 5.514 5.389 0 | 


ETE TEE = == т ож чш ETE тот чю © чк чәк ч ж чш = ч чик чо = чыр ч ч ча ЧУ ч чы Чч ч чыр "р ч чыр ч ч {р ч ч = © "б у= = = == = ч йы» 4 чь фек ж @Ь эш ч Ж аы 4ь ж ФЕ,  @ 4Ь Фф Ф ФЕВ ж A—A—-———————————————— 


ik: ЖЕЙ cB, 右上 角 为 p 值 。 


从 结果 可 以 看 出 ， 财 政 收 入 和 国民 生产 总 值 、 税 收 、 进 出 口 贸易 总 额 、 经 济 活动 人 
口 之 间 的 关系 都 非常 密切 (r >0.8,P <0.001)， 财 政 收 入 与 税收 之 间 的 关系 最 为 密切 (7r = 
0. 999 5,Р <0. 001), 


4.3.2 复 相 关 分 析 


以 上 都 是 在 把 其 他 变量 的 影响 完全 排除 在 外 的 情况 下 研究 两 个 变量 之 间 的 相关 关系 。 
但 是 在 实际 分 析 中 ， 一 个 变量 的 变化 往往 要 受到 多 种 变量 的 综合 影响 ， 这 时 就 需要 采用 
复 相 关 分 析 方 法 。 所 谓 复 相 关 ， 就 是 研究 多 个 变量 同时 与 某 个 变量 之 间 的 相关 关系 ， 度 
量 复 相关 程度 的 指标 是 复 相 关系 数 。 
1. 复 相 关系 数 的 计算 
设 因 变量 为 y， 目 变量 为 x ,x,,… ,x,， 假 定 回 归 模 型 为 ; 
y =b + ух +b,x, t +b,x, + £ 
y zb bx, +b,x, ++ +b x, 
Хју 5i x, ,x,，,…,x, 作 相 关 分 析 就 是 对 y 5 y ERD, ier B y xmv, 
x, 的 复 相关 系数 ， 而 7,.; 可 以 看 作 是 y 与 7 的 简单 相关 系数 。 于 是 y 与 x, ,x,,…,%, 的 复 
相关 系数 计算 公式 为 : 


К _ ~ (yp) 2 [EG 
К = $1525," , p EX *, m TY - 
corr( y ,x, ,x x,) -corr( y,y) TY EOFT 
2. 决定 系数 


在 类 似 多 元 回归 分 析 这 类 问题 中 ， 研 究 者 常 希 望 知 道 因 变量 与 一 组 自 变 量 间 的 相关 
程度 ， 即 复 相 关 。 如 例 4 -3 的 资料 ， 研 究 者 希望 分 析 财 政 收 入 与 国民 生产 总 值 和 税收 等 
指标 间 的 相关 程度 。 为 此 可 计算 复 相 关系 数 R: 


r EOD. |55; 
| X(y-y» 55; 
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S3, 12 627. 364 5 
EAR, R= 55 712829. 718 6 U. 999 9. 


复 相 关系 数 反映 了 一 个 变量 与 另 一 组 变量 关系 密切 的 程度 。 复 相关 系数 的 假设 检验 
等 价 于 多 元 回归 的 方差 分 析 结 果 ， 所 以 不 必 再 作假 设 检验 。 

公式 尺 根 号 里 的 分 式 实 际 上 就 是 回归 离 差 平方 和 与 总 离 差 平方 和 的 比值 ， 反 映 了 回 
归 贡 献 的 百分比 值 ， 所 以 常 把 К? 称 为 决定 系数 或 相关 指数 。 本 例 中 ，R* =0.999 9 = 
0.999 7, R° 在 评价 多 元 回归 方程 、 变 量 选择 、 曲 线 回 归 方 程 拟 合 的 好 坏 程 度 中 常会 


(= чч чо =ч = =ч = чоч ч чоч =ч ч чоя чоя чо 1... ч 40-4 шш 5 5 шш 5 5 шш 5 4 шо шш шшш 5 5 шш ш шшш шш шш ш шшш шоч ш ш = чє тот шш шот тш тош тт 3 ж шш тот отт ош от тч ш т отт от т тт от ш ттт т шт ш т отт тот тт оя т у 


:> ( R2 = summary ( т )$г. sq) 
; [1]0. 9997 


CE 


4.4 回归 变量 的 选择 方法 


多 元 回归 分 析 在 实际 中 有 广泛 的 应 用 ， 由 4. 2 节 分 析 可 知 ， 其 主要 用 途 有 : OHF 
描述 、 解 释 现 象 ， 这 时 希望 回归 方程 中 所 包含 的 自 变量 尽 可 能 少 一 些 ; 人 用 于 预测 ， 这 
时 希望 预测 的 均 方 误差 较 小 ; @@ 用 于 控制 ， 这 时 希望 各 回归 系数 具有 和 较 小 的 方差 和 均 方 
误差 。 在 实际 问题 中 ， 可 以 提出 许多 对 因 变量 有 影响 的 目 变 量 ， 变 量 选择 太 少 或 不 恰当 ， 
会 使 建立 的 模型 与 实际 有 较 大 的 偏离 ; 而 变量 选 得 太 多 则 使 用 不 便 ， 并 且 有 时 也 会 削弱 
估计 和 预测 的 稳定 性 ， 所 以 变量 选择 问题 是 一 个 十 分 重要 的 问题 。 也 就 是 说 ， 在 多 元 回 
归 分 析 中 ， 并 不 是 变量 越 多 越 好 。 变 量 太 多 ， 容 易 引 起 以 下 四 个 问题 : 中 变量 多 增加 了 
模型 的 复杂 度 ; 四 计算 量 增 大 ; 久 估 计 和 预测 的 精度 下 降 ;， (@ 模 型 应 用 费用 增加 。 


4.4.1 变量 选择 准则 


为 解决 以 上 问题 ， 人 们 提出 了 许多 变量 选择 的 准则 ， 如 全 部 子 集 法 、 回 后 删除 法 、 
向 前 引入 法 及 逐步 筛选 法 等 方法 。 

一 、 全 局 择优 法 

这 需要 根据 一 些 准则 (criterion) 建立 “最 优 ” 回 归 模 型 。 

从 理论 上 说 ， 自 变量 选择 最 好 的 方法 是 所 有 可 能 回归 法 ， 即 建立 因 变 量 和 所 有 自 变 
量 全 部 子 集 组 合 的 回归 模型 ， 也 称 全 部 子 集 法 。 

对 于 含有 p 个 自 变量 的 回归 模型 来 说 ， 含 有 0 个 自 变 量 ( 仅 有 常数 项 ) 的 子 集 有 С 
^, 含有 1 个 自 变 量 的 子 集 有 C, 个 ， 含 有 2 个 自 变 量 的 子 集 有 C 个 ，…， 人 含有 疡 个 自 
变量 的 子 集 有 C^ 个， 因此 ,共有 С, +С, + C + … +C =2” 个 模型 。 

求 出 所 有 可 能 的 回归 模型 (共有 22 -1 个 ) 对 应 的 准则 值 ， 按 一 定 准则 选择 最 优 
模型 。 

对 于 每 个 模型 ， 在 实用 上 ， 从 数据 与 模型 拟 合 优 劣 的 直观 考虑 出 发 ， 基 于 残 差 〈 误 
差 ) 平方 和 RSS (residual sum of squares， 即 方差 分 析 表 中 55.) 的 变量 选择 准则 使 用 得 
最 多 。 误 差 平 方 和 越 小 ， 回 归 方 程 的 拟 合 越 理想 。 而 且 ， 复 相关 系数 的 平方 (决定 系数 ) 
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К? =1 - RSS/SS;， 对 一 个 确定 的 问题 ，557 Е, ETRA (误差 ) 平方 和 RSS 的 变量 
选择 准则 与 基于 决定 系数 玉 的 变量 选择 准则 意义 是 等 价 的 ， 决 定 系 数 RS 越 大 ， 回 归 方 
程 的 拟 合 越 理 想 。 

下 面 以 残 差 平方 和 RSS 与 复 相 关系 数 的 平方 R 为 准则 介绍 变量 选择 的 过 程 。 

【 例 4-6】( 续 例 4-4) 在 “财政 收入 ”数据 中 ， 有 四 个 自 变量 : х. х,, x, 和 x。 
所 有 可 能 的 模型 可 分 为 以 下 五 组 子 集 : 

FÆRA: y 2b, C, =1 种 可 能 模型 。 

FÆ В. y= +b,x;, i=1, 2, 3, 4С; =4 种 可 能 模型 。 

子 集 C: у=, +bixi+bx, ij, i, j21, 2, 3, 4 二 C2 =6 种 可 能 模型 。 

子 集 D: у=, + bx, + bx +b, із] Е, i, j, k=1, 2, 3, 42 C, =4 种 可 能 
模型 。 

子 集 E: у=, +bixi +b,x, +b,x, +b,x,=C1=1 种 可 能 模型 。 

总 共有 C) +С, +G + Сі + СА =2° =16 种 模型 。 

1. RSS 和 民 准则 变量 的 选取 

对 每 组 子 集 ， 挑 出 RSS Лу, К 最 大 的 变量 ， 见 表 4 -7， 得 出 下 列 模型 ; 


表 4 -7 例 4 -4 数据 的 RSS 与 R° A: W| SLATE 
y zb, * bx, e box, + bx, + bax 


注意 ， 在 本 书 中 残 差 平方 和 用 SS, 表示， 等同 于 R 中 RSS. 


(| 


I 
i > varsel = regsubsets( y ~ x +x2 +x3 +x4,data=yX) # 变 基 选 择 i 
> result = summary ( varsel ) ' 
| > data. frame( result $outmat , RSS = result $rss , R2 = result $rsq) j 
| xl х2 х3 x4 RS R : 
i 
i 
I 
I 


| i. ЇЙ * 752.88 0. 99894 
i 2 (1) * * 203.88 0.99971 
10$ X1) жо ж ж 202.35 0.99972 
: 4 (1) # ж ж ж 202.34 0.99972 


[EEE EE e ш 45 шш 5 5 шш m m шш ch ш а ш шш ш m m шш ш шш i ш m m Ч ш шш de ш ЫШ ж m ш ш шш e c m omo tm 4 m mim mom moo ФЕ 4 ФО 4 omm mom omo c mio om mim m ioco 
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. RSS 和 R° 准则 的 优点 

具有 较 大 的 R^ 值 对 于 较 少 自 变 量 的 模型 应 该 是 好 的 选择 ， 因 为 较 大 的 RO 意味 着 有 
较 好 的 拟 合 效果 ， 而 较 少 的 变量 个 数 有 利于 信息 的 收集 和 控制 。 

3. RSS 和 R° 准则 的 缺点 

对 于 有 个 和 目 变 量 的 回归 模型 来 说 ， 当 自 变 量子 集 在 扩大 时 ， 残 差 平 方 和 随 之 减少 
(可 以 证 明 RSS, «RSS, ,, HEM RSR), КП, WEH “RSS Л” Tk “КҖ 
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大 愈 好 ”的 原则 来 选择 自 变量 子 集 ， 则 毫 无 疑问 应 该 选 全 部 自 变 量 ， 所 以 说 ， 在 实际 中 ， 
“RSS ANAR” A R 愈 大 愈 好 ”不 能 作为 选择 自 变 量 的 准则 。 
另外 ， 在 上 述 А? 准则 的 选择 中 ， 本 案例 的 两 个 模型 y = b, + bx) + b,x, + b,x, 和 
y =b, +b,x, + b,x, + bax4 就 很 难 选 取 。 这 主要 是 因为 x х, 高度 相关 ， 其 相关 系数 为 
0.986 8, тт К° 一 样 就 不 奇怪 了 。 
二 、 变 量 选 择 的 常用 准则 
由 于 在 实际 的 变量 选择 问题 中 ， 我 们 的 主要 目的 就 是 设法 防 止 选取 过 多 的 自 变量 ， 
而 基于 直观 考虑 的 残 差 平方 和 准则 、 复 相关 系数 平方 准则 最 终 都 将 选取 所 有 上 自 变 量 ， 所 
以 常用 的 做 法 是 在 残 差 平方 和 RSS 上 WITZE BE RU AE T] 因子 。 
1. 平均 残 差 平方 和 最 小 准则 
RMS, MÀ 
XE, р 为 所 选 模型 的 变量 个 数 (每 个 模型 皆 包 括 常数 项 ) ， 因 (n -p)”“ 随 着 自 变 量 
个 数 p 的 增加 而 增加 ， 它 体现 了 变量 个 数 增加 对 RSS 增加 的 惩罚 ， 于 是 有 平均 残 差 平方 
和 最 小 准则 : 按 “RMS 愈 小 傅 好 ”选取 自 变量 。 
2. 误差 均 方 根 MSE 最 小 准则 
MSE, = ./RIIS, 
MSE, 实际 上 就 是 模型 的 剩余 标准 差 s,.,，MSE。 越 小 ， 说 明 模 型 拟 合 得 越 好 。 当 然 ， 
选 模型 中 最 小 的 MSE, 所 对 应 的 模型 就 是 最 好 的 模型 ， 所 得 结论 同 RMS, 准则 等 价 。 
3. 校正 复 相关 系数 平方 (Adjusted А?) 准则 


adj =1 -7> (1 =R?) 


pag, n-l _ F RSS/(n-p) , n-1 
adjR = 1 E UR) -1 USS/n-1) =1- ss, MS, 


由 于 对 一 个 具体 问题 SS, 不 变 ， 所 以 这 个 准则 也 就 等 价 于 RMS, 准则 。adjR? RK, 
说 明 模 型 拟 合 得 越 好 。 

4. C, 准则 

近年 来 ， 一 个 得 到 广泛 重视 的 变量 选择 准则 是 基于 1964 年 C. Mallows 提出 的 C, 统计 
E, C, 统计 量 是 从 预测 的 角度 出 发 ， 基 于 残 差 平方 和 的 一 个 准则 。 


C, = (n-2p) = 06 - (n -2p) = PEMS, - (n -2p) 


这 里 ，C " criterion, p Ne NNI, C, 接近 p 模型 为 最 优 。 其 中 ， 
s^ 为 全 模型 的 均 方 误差 RMS, 

C, 法 则 为 ， 选 择 对 应 点 (p,C,) 最 接近 第 一 象限 角 平 分 线 ， 日 C, 最 小 的 模型 。 

5. AIC 准则 和 BIC 准则 

AIC ( Akaike information criterion) 和 BIC (Bayesian information criterion) 是 多 元 回归 
中 选择 模型 的 两 条 重要 准则 。 在 多 元 回归 分 析 中 ， 为 了 防止 过 度 拟 合 等 问题 ( 既 要 使 模 
型 的 解释 性 串 ， 又 要 有 一 点 张力 ) Akaike (1978) 和 Schwarz (1978) 分 别提 出 了 AIC 
和 BIC 作为 回归 模型 选择 的 标准 。 在 回归 模型 中 ， 这 两 个 值 都 是 越 小 越 好 。 它 们 不 仅 可 
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用 于 回归 分 析 的 变量 选择 中 ， 还 可 用 于 时 间 序 列 分 析 的 自 回 归 模 型 的 定 阶 上 。 
回归 分 析 中 选择 变量 的 А/С 和 BIC 准则 分 别 为 : 


RSS 
AIC = nln( — 1: *2p 
RSS 
BIC = nln( ~=) * pln(n) 


AIC 和 BIC 选择 变量 的 准则 是 : TE "AIC 或 BIC ЛН” ЮНИ. 
对 每 组 子 集 ， 挑 出 C, 和 BIC 最 小 的 变量 ， 见 表 4 -8， 得 出 下 列 模型 : 


表 4-8 例 4 -4 数据 的 ма ашышы аншы 


тасарч чаара TETTA 


对 例 4-4， 上 面 给 出 了 所 选 模型 的 C, (8, C, 的 最 小 值 对 应 的 变量 子 集 为 (xo ,xz ,xs ) , 
C, 21.199, (x, ,x; ,%4) 对 应 的 (1 +2,1. 199) = (3,1. 199) 最 接近 第 一 象限 角 平 分 线 。 另 外 
一 些 较 小 的 C, 统计 量 分 别 对 应 于 (xo,xi ,xz,xs)， 对 这 个 变量 子 集 ， 其 对 应 的 (1 +3, 
3.001) = (4,3. 001) 也 接近 第 一 象限 角 平 分 线 ， 如 果 没 有 别 的 附加 考虑 ， 在 C, 准则 下 ， 
(xo,xz,x4) 是 “最 优 ” 子 集 。 

而 按 BIC 准则 选择 的 “最 优 ” TE Uu x, ‚^2 "P 
: > data. frame( result $outmat , RSS = result $rss , R2 = result $rsq , adjR2 = result $adjr2 , Cp = result $i : 
cp, BIC = result $bic ) 


xl x2 x3 x4 RSS R2 adjR2 Cp BIC 
1 (1) * 752.9 0.9989 0. 9989 69. 745 -205.6 
2 (1) * x 203.9 0.9997 0.9997 1.199 -242.6 
3 (1) ж +œ * 202.3 0.9997 0.9997 3.001 -239.4 


4 (1) ж ж æ ж 2023 0.9997 0.9997 _ 5.000 1 -236.0 


er" dem ————— ————————— —— —— —— A —————————— ——— ——— —— —————————————— 


三 、 全 局 择优 法 的 局 限 性 

如 果 自 变量 个 数 为 4， 则 所 有 的 回归 有 2 -1 =15 个 ; 当 自 变量 个 数 为 10 时 ， 所 有 可 
能 的 回归 为 2” -1 =1 023 个 …… 当 自 变 量 个 数 为 50 时 ， 所 有 可 能 的 回归 为 2” -1=10 个 。 
当 p 很 大 时 ,数字 2 大 得 惊人 ， 有 时 计算 是 不 可 能 的 ， 于 是 就 产生 了 所 谓 逐 步 回归 的 方法 。 


- 


4 ”相关 分 析 与 回归 分 析 及 R 使 用 o 79 


р 1 
d m 


4.4.2 逐步 回归 分 析 


一 、 逐 步 回 归 分 析 的 概念 

在 作 实 际 多 元 线性 回归 时 常 有 这 样 的 情况 ， 变 量 x, х, ce, x, 相互 之 间 常 常 是 线 
性 相关 的 ， 即 在 x, х, ce, x, 中 任何 两 个 变量 是 完全 线性 相关 的 ， 其 相关 系数 为 1， 则 
Mie X'X 的 秩 小 于 p，(XX) 一 就 无 解 。 当 变量 I, х, 5, х, 中 任 有 两 个 变量 存在 较 大 
的 相关 性 时 ， 和 矩阵 X'X 处 于 病态 ， 会 给 模型 带 来 很 大 误差 。 因 此 作 回 归 时 ， 应 选 变量 ху, 
ху, =, x, 中 的 一 部 分 作 回 归 ， 剔 除 一 些 变量 。 逐 步 回归 法 就 是 寻找 较 优 子 空间 的 一 种 
变量 选择 方法 。 

在 前 面 的 章节 中 ， 我 们 给 出 了 一 般 多 元 线性 回归 方程 的 求法 ， 但 是 细心 的 读者 也 许 
会 注意 到 ， 在 那里 不 管 自 变量 x, 对 因 变 量 у 的 影响 是 否 显著 ， 均 可 进入 回归 方程 ， 这 样 
就 使 误差 的 自由 度 变 小 ， 而 误差 的 自由 度 变 小 ， 就 使 得 误差 的 均 方 增 大 ， 即 估计 的 精度 
变 低 。 另 外 ， 在 许多 实际 问题 中 ,往往 自 变量 x, x,, +, x, 之 间 并 不 是 完全 独立 的 ， 
而 是 有 一 定 的 相关 性 存在 的 。 如 果 回 归 模 型 中 的 某 两 个 自 变量 x ЖП x, 的 相关 系数 比较 
大 ， 就 可 使 得 正规 方程 组 的 系数 矩阵 出 现 病态 ， 也 就 是 所 谓 多 重 共 线 性 的 问题 ， 将 导致 
回归 系数 的 估计 值 的 精度 不 高 。 

在 例 4 -4 中 ， 虽 然 回 归 方 程 的 检验 是 高 度 显著 的 ， 但 是 回归 系数 的 检验 结果 只 有 x, 
Tü x, 是 显著 的 ， 而 x, 和 x; 却 不 显著 ， 这 样 的 回归 方程 不 能 称 为 最 佳 回 归 方 程 。 在 实际 
计算 中 ,我 们 总 是 希望 ， 不 但 求 得 的 回归 方程 是 显著 的 ， 而 且 在 回归 方程 中 的 自 变量 也 
都 是 尽 可 能 显著 的 ， 也 就 是 要 选择 最 佳 的 回归 模型 。 选 择 最 佳 回归 模型 的 方法 很 多 ， 而 
逐步 回归 分 析 方 法 就 是 其 中 的 一 种 。 

二 、 逐 步 变 量 选择 的 方法 

在 后 面 的 讨论 中 ， 如 果 对 回归 方程 增加 自 变 量 x, ， 则 称 为 “引入 ”变量 x;; 如 果 要 
将 已 在 回归 方程 中 的 自 变量 ,从 回归 方程 中 删 掉 ， 则 称 为 “剔除 ”变量 x;。 无 论 引 入 变 
量 或 剔除 变量 ， 都 要 利用 下 检验 ， 将 显著 的 变量 引入 回归 方程 ， 而 将 不 显著 的 变量 从 回 
归 方 程 中 剔除 。 记 引入 变量 的 下 检验 的 临界 值 为 Rs ， 剔 除 变量 的 下 检验 的 临界 值 为 F... 
— F Pu ， 它 的 确定 原则 一 般 是 : 对 p 个 自 变 量 的 n 组 样品 数据 ， 估 计 可 能 进入 回归 
方程 的 变量 为 m 个 (mp)， 则 对 给 定 的 显著 性 水 平 a， 确 定 下 和 值 ， 记 为 fF" ， 则 可 取 
Fe = Ку =F° o 一 般 来 说 ， 也 可 以 直接 取 Fa -F, = 3.84 uk 2. 71, 当然 ， 为 了 回归 方程 
中 还 能 多 进入 一 些 自 变 量 ， 甚 至 也 可 以 取 为 2.0 或 2.5。 

1. 向 前 引入 法 (forward) 

首先 对 全 部 p 个 自 变 量 ,分 别 对 因 变量 y 建立 一 元 回归 方程 ， 并 分 别 计算 这 p 个 一 
元 回归 方程 的 p 个 回归 系数 的 下 检验 值 ， 记 为 | i, 下 ,…, 下 | ， 选 其 最 大 的 记 为 Fl = max 
Е, Fine Е. Ж F 宇 Fn， 则 首先 将 x, 引入 回 归 方 程 ， 不 失 一 般 性 ， 设 x, 就 是 x。 

接着 考虑 将 (zi x.) 10 x) ns 09 ox) 分别 与 因 变 量 y 建立 二 元 回归 方程 ， 对 这 
p -1 个 回归 方程 中 x, ux, ,……,x, 的 回归 系数 进行 下 检验 ， 计 算得 到 的 下 值 ， 记 为 FS, FS, 
F, XE CK SiO Fi = тах | Ез, FS, F; |o XP ЕЕ, WEAK x 再 引信 回归 方程 ， 
不 失 一 般 性 ， 设 x, 就 是 x,。 

对 已 经 引入 回归 方程 的 变量 x, 和 x,， 如 同 前 面 的 方法 做 下 去 ， 直 到 所 有 未 被 引信 方 
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程 的 变量 的 下 值 均 小 于 为止 。 这 时 的 回归 方程 就 是 最 终 选 定 的 回归 方程 。 换 种 说 法 ， 
向 前 引入 法 即 从 一 个 变量 开始 ， 每 次 引入 一 个 对 y 影响 显著 的 变量 ， 直 到 无 法 引入 为 止 。 
这 种 方法 的 要 点 是 从 一 个 变量 开始 ， 将 回归 变量 逐个 引入 回归 方程 ， 它 要 先 计 算 y 同 各 
个 变量 的 相关 系数 ， 对 于 相关 系数 绝对 值 最 大 的 变量 ， 对 其 偏 回归 平方 和 【( 复 相关 系数 ) 
作 显 著 性 检验 ， 如 果 显 著 就 引入 方程 。 这 种 方法 只 是 对 变量 的 引入 把 关 ， 变 量 引 入 之 后 ， 
不 论 其 以 后 是 否 会 变 成 不 显著 ， 概 不 剔除 。 

显然 ， 这 种 增加 法 有 一 定 的 缺点 ， 主 要 是 它 不 能 反映 后 来 的 变化 情况 。 因 为 对 于 某 
个 自 变 量 ， 它 可 能 开始 时 是 显著 的 ， 即 将 其 引入 回归 方程 。 但 是 ， 随 着 以 后 其 他 目 变 量 
的 引入 ， 它 可 能 又 变 为 不 显著 的 了 ， 而 并 没有 将 其 及 时 从 回归 方程 中 剔除 。 也 就 是 说 ， 
增加 变量 法 只 考虑 引信 而 不 考虑 剔除 。 

2. 向 后 别 除 法 (backward) 

与 向 前 引 人 法 相反 ， 向 后 剔除 法 是 首先 建立 全 部 自 变 量 x ，x,，…，x, 对 因 变 量 y 的 
回归 方程 ， 然 后 对 p 个 回归 系数 进行 Е, WRI FALF, Fe Fl, AHR 
JME, iA Fi = тіп FL,F; e Fi}, BAF RF, WALK IER ААЖ x JA 10477 #Ё 
中 剔除 ， 不 妨 设 x ERU xe | 

再 对 x, ，x3，…，%, 对 因 变 量 y 建立 的 回归 方程 中 的 回归 系数 进行 下 检验 ， 记 求 得 
B F£ SIF, , 感 ,…, 严 }。 再 取 其 中 最 小 值 ， 记 为 Fi = minj F, F5, Fl, EUR FX 
Fa, MERK 习 也 从 回归 方程 中 剔除 。 不 妨 设 x 就 是 x,。 重 复 前 面 的 做 法 ， 直 至 在 回归 
方程 中 的 变量 的 下 检验 值 均 大 于 下 , ， 即 没有 变量 可 噜 除 为 止 ， 这 时 的 回归 方程 就 是 最 终 
的 回归 方程 。 

总 之 ， 向 后 剿 除法 即 从 包含 全 部 p 个 变量 的 回归 方程 中 ， 根 据 判 断 ， 每 次 噜 除 一 个 
对 yy 影响 不 显著 的 变量 ， 直 到 无 法 噜 除 为 止 。 即 从 包含 全 部 变量 的 回归 方程 中 逐步 噜 除 
不 显著 变量 。 先 建立 全 部 变量 的 回归 方程 ， 然 后 对 每 一 变量 作 显 著 性 检验 ， 剔 除 不 显著 
变量 中 偏 回归 平方 和 最 小 的 一 个 变量 ， 重 新 建立 方程 ， 重 复 上 面 的 过 程 ， 直 至 方程 中 每 
个 变量 都 显著 为 止 。 许 多 文献 中 都 认为 这 种 方法 在 变量 不 多 且 不 显著 变量 也 不 多 时 可 以 
采用 。 而 当 变 量 较 多 ， 特 别 是 不 显著 变量 很 多 时 ， 计 算 工 作 量 是 相当 大 的 ， 因 为 每 剔除 
一 个 因子 后 就 得 重新 计算 回归 系数 。 

这 种 剔除 法 有 一 个 明显 的 缺点 ， 就 是 一 开始 把 全 部 自 变 量 都 引 人 和 人 回归 方程 ， 这 样 使 
得 计算 量 比 较 大 。 若 对 一 些 不 重要 变量 ， 一 开始 就 不 引入 ， 这 样 便 可 以 减少 一 些 计算 量 。 

3. 逐步 筛选 法 〈stepwise ) 

前 面 的 变量 引入 法 ， 只 考虑 增加 变量 ,不 考虑 噜 除 ， 也 就 是 对 任何 一 个 变量 , 一旦 
将 其 引入 回归 方程 ， 不 管 其 以 后 在 回归 方程 中 的 作用 发 生 什 么 变化 〈 即 使 变 得 不 显著 
了 ) ， 也 不 考虑 将 其 剔除 。 反 之 ， 变 量 剔除 法 ， 只 考虑 剔除 ， 而 不 考虑 增加 。 如 果 自 变量 
x1，X2，*"…，%, 是 完全 独立 的 ， 那么 利用 这 两 种 方法 所 求 得 的 两 个 回归 模型 之 间 是 完全 没 
有 显著 差异 的 。 然 而 ， 在 许多 实际 问题 的 数据 中 ， 自 变量 x, ，x,，…，%, 之 间 往 往 并 不 
是 独立 的 ， 而 是 有 一 定 的 相关 性 存在 ， 这 就 使 得 随 着 回归 方程 中 变量 的 增加 和 减少 ， 某 
些 自 变 量 对 回归 方程 的 贡献 也 会 发 生变 化 。 因 此 一 种 很 自然 的 想法 是 将 前 两 种 方法 结合 
起 来 ， 也 就 是 对 每 一 个 自 变量 ， 随 着 其 对 回归 方程 贡献 的 变化 ， 随 时 将 其 引信 回归 方程 
或 剔除 出 去 ， 最 终 的 回归 模型 是 ， 在 回归 方程 中 的 自 变量 均 为 显著 的 变量 ， 不 在 回归 方 
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程 中 的 自 变 量 均 为 不 显著 的 变量 。 也 就 是 说 ， 逐 步 筛 选 法 是 综合 上 述 两 种 方法 的 特点 而 
建立 的 一 种 新 方法 ， 其 基本 思想 是 : 在 所 考虑 的 全 部 变量 中 ， 按 其 对 预报 变量 y 作用 的 
显著 程度 大 小 ， 挑 选 一 个 最 重要 变量 ， 建 立 只 包含 这 个 变量 的 回归 方程 ; 接着 对 其 他 变 
量 计算 偏 回归 平方 和 ， 引 入 一 个 显著 性 的 变量 ， 建 立 具 有 两 个 变量 的 回归 方程 ; 从 此 之 
后 ， 逐 步 回 归 的 每 一 步 〈 引 入 一 个 变量 或 从 回归 方程 中 剔除 一 个 变量 都 算 作 一 步 ) 前 后 
都 要 作 显 著 性 检验 ， 即 反复 进行 两 个 步骤 。 第 一 ， 对 已 在 回归 方程 中 的 变量 作 显 著 性 检 
验 ， 显 著者 保留 ， 最 不 显著 者 剔除 ; 第 二 ， 对 不 在 回归 方程 中 的 其 余 变量 ， 挑 选 最 重要 
”的 那 一 个 进入 回归 方程 ， 直 至 最 后 回归 方程 中 再 也 不 能 剔除 任 一 变量 ， 同 时 也 不 能 再 引 
人 变量 为 止 ， 保 证 最 后 所 得 的 回归 方程 中 所 有 变量 都 为 显著 变量 。 这 种 方法 和 所 谓 选 择 
全 部 回归 子 集 的 方法 在 一 般 情 况 下 是 很 好 的 ， 特 别 是 当 整 个 模型 满足 线性 回归 的 基本 假 
定时 效果 较 好 。 
逐步 回归 的 计算 步骤 是 从 一 个 变量 开始 做 : 中 每 次 选 和 人 一 个 对 y 影响 显著 的 变量 ， 
直到 无 法 选 入 时 转 到 @@; 四 每 次 剔除 一 个 对 у 影响 不 显著 的 变量 ， 直 到 无 法 剔除 时 转 
到 中 。 当 无 法 选 和 人 也 无 法 剔除 时 停止 筛选 ， 以 使 最 后 回归 方程 只 保留 重要 的 变量 。 
‘>fm=Im(y~xl+2+23+x4) ТТТ 
; > fm. step = step( fm , direction = " forward" ) 
Start; AIC =68. 15 
y — xl + x2 + x3 + x4 
i> fm. step = step( fm ,direction = " backward" ) 
| Stan: AIC =68. 15 
y -xl + x2 + x3 + x4 ' 
Df Sumof Sq RSS AIC ] 
-x3 1 009 20 66 ' 
- xl 1 1 204 66 
<none > 202 68 ' 
-x4 1 14 376 85 
-x2 l 6433 6635 174 i 
Step: AIC =66. 16 - 


y~ xl +x2 + x4 
Df Sum ofSq RSS AIC 
-xl 1 2 204 64 
< none > 202 66 
- х4 1 197 400 85 


I 
- х2 1 7382 7585 176 ' 
I 
Step: AIC = 64. 39 


x = = тт т от отт ж ож чт чт тт тт} Өң ч ӨШ #4 4 Фф © Өш © ж шш ж шш шш ш ш Á... Á... ... ттт т тт т т тт т т тт от т тт т т тт т т -...-....-....Á.... ш ш шы ш ш .Á... .-... 


у-х2+х4 
Df SumofSq RSS AIC 
< none > 204 64 
- х4 1 549 753 103 | 


LLL о ан == шш = = ш ш = шш = LL D Lol ш чш ш ш ыы ы ы шш Lil шшш La ш шш ш s! шш ш = Å d Á... Á... ol ucl o. al . Á... Á... шы ш в шш ш ош шш в ш Á... шш а ® шш н 1 111 1.1. LJ 


“多 元 统计 分 析 及 R 语 言 建 模 


-ey 


: > fm. step = step( fm direction = " both" ) 
Start; AIC =68. 15 
y-xl +x2 + x3 + x4 
Df SumofSq RSS AIC 
-3 1 009 202 66 
-x]p л 1 204 66 
< попе > 202 68 
a 174 376 85 
-x2 1 63 6635 174 
Step; AIC = 66. 16 


y-xl + x2 + x4 
Df Sum of Sq RSS AIC 
- xl l Í. 204 64 
< none > 202 66 


* x3 l 0. 009 202 68 

- x4 1 197 400 85 

-x2 1 7382 7585 176 
Step: AIC = 64. 39 


y = x2 + x4 
Df Sum ofSq | RSS AIC 
< none > 204 64 
*xl 1 2 202 66 
+ х3 1 0. 18 204 66 
- x4 1 549 753 103 
一 X2 1 367655 367859 295 
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4.5 非 线性 回归 模型 


4.5.1 一 元 非 线 性 回归 模型 及 其 应 用 


一 、 曲 线 回归 

曲线 回归 分 析 的 基本 任务 是 通过 两 个 相关 变量 x 与 y 的 实际 观测 数据 建立 曲线 回归 
方程 ， 以 揭示 x 与 y 间 的 曲线 联系 的 形式 。 

曲线 回归 分 析 最 困难 和 首要 的 工作 是 确定 因 变量 y 与 自 变 量 x 之 间 曲 线 关 系 的 类 型 。 
通常 通过 两 个 途径 来 确定 : 山 利用 有 关 专 业 知 识 ， 根 据 已 知 的 理论 规律 和 实践 经 验 ， 如 
大 郴 数 的 形式 能 较 好 地 表现 生产 函数 ， 多 项 式 方 程 能 较 好 地 反映 总 成 本 与 总 产量 之 间 的 
关系 等 ; 凶 若 没有 已 知 的 理论 规律 和 经 验 可 利用 ， 可 在 直角 坐标 系 作 散 点 图 ， 观 察 实测 
点 的 分 布 趋势 与 哪 一 类 已 知 困 数 曲线 最 接近 ， 然 后 再 选用 该 函数 关系 式 来 拟 合 数据 。 

对 于 可 直线 化 的 曲线 函数 类 型 ， 曲 线 回 归 分 析 的 基本 过 程 是 : 先 将 x 和 (或 ) y xt 
行 变量 转换 ， 然 后 对 新 变量 进行 直线 回归 分 析 一 一 建立 直线 回归 方程 并 进行 显著 性 检验 ， 
最 后 将 新 变量 还 原 为 原 变量 ， 由 新 变量 的 直线 回归 方程 得 出 原 变量 的 曲线 回归 方程 。. 
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还 有 一 种 情况 是 找 不 到 与 已 知 的 函数 曲线 较 接近 数据 的 分 布 趋势 ， 这 时 可 利用 多 项 
式 回 归 ， 通 过 逐渐 增加 多 项 式 的 高 次 项 来 拟 合 ， 直 到 满意 为 止 。 

二 、 可 直线 化 的 曲线 类 型 

1. 多 项 式 曲线 

(1) 二 次 函数 (抛物 线 函 数 ) y =a + bx + cx 是 二 次 多 项 式 曲线 ， 即 抛物 线 ， 是 直线 
(一 次 函数 ) 的 推广 ， 为 多 项 式 曲线 中 最 简单 的 一 种 曲线 形式 ， 也 是 实际 中 常见 的 一 种 曲 
iko RRES x =x，x, =x”， 就 把 二 次 曲线 方程 转变 成 了 多 变量 线性 回归 方程 y= bo + 
bx, +b,x,， 然 后 按 一 般 线性 回归 方程 处 理 。 

aa A AA e a 
i»plot(x,1 +2 +х +3 х ^2,"o" ylab="y=1 42x 43x ^2") ) 


=1+2х3х^2 
150 250 


у 
0 50 
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(2) 多 项 式 方程 。 若 在 一 次 方程 中 引入 х 的 二 次 、 三 次 ， 帮 至 更 高 次 项 ， 直 线 方程 

就 成 为 一 般 多 项 式 方程 ， 如 为 某 曲线 型 数据 拟 合 多 项 式 盯 数 : 
y =b, + b,x + b,x° + Фр 

若 令 xi =x, x, =x°, +, хох, Н — REA I X ЖЕЛЕ ЛЕ pR ГЛЕ [E] Ja 
ZH: 

y =b +b, x, + bx, + +b x, 

利用 前 面 介 绍 的 多 变量 线性 回归 方法 及 有 关 的 统计 软件 ， 容 易 求 得 参数 bo, b, -:' 
b, 的 最 小 二 乘 估 计 。 可 见 多 项 式 回归 是 一 般 线 性 回归 的 一 个 特例 。 

在 一 般 的 多 项 式 清 数 中 ，x，x ,x ，… 项 常 高 度 相关 。 为 避免 这 一 点 ， 当 x* 是 等 间 
隔 取 值 时 ， 可 以 根据 样本 均 数 和 样本 量 构造 出 互 不 相关 的 x 的 各 阶 多 项 式 ， 称 为 正 交 多 
项 式 。 采 用 正 交 多 项 式 法 受到 两 个 条 件 的 限制 : 

1) 需要 从 有 关 专 著 中 找到 现成 的 正 交 多 项 式 系数 表 。 

2) 它 仅 适用 于 自 变 量 取 等 间隔 的 情形 。 

现在 ， 有 现成 的 软件 ， 只 需 用 一 般 的 多 项 式 进 行 拟 合 即 可 。 统 计 软 件 除 可 提供 参数 
的 估计 值 及 其 标准 误差 以 外 ， 还 可 提供 检验 参数 是 否 具有 统计 学 意义 的 正统 计量 以 及 决 
定 系数 ， 用 户 可 据 此 判断 采用 高 达 几 阶 的 多 项 式 来 拟 合 效果 最 佳 。 

多 项 式 方程 在 非 线 性 回归 分 析 中 占有 重要 的 地 位 。 因 为 根据 数学 上 级 数 展开 的 原理 ， 
任何 曲线 、 曲 面 、 超 曲面 的 问题 ， 在 一 定 范围 内 都 能 够 用 多 项 式 任 意 通 近 。 所 以 ， 当 因 
变量 与 自 变 量 之 间 的 确定 关系 未 知 时 ， 可 以 用 适当 大 次 的 多 项 式 来 近似 反映 。 

2. 对 数 函 数 yY=a+blogx 

令 x =logx， 则 将 其 直线 化 为 y=a + bx'。 


? 
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;»x-1:20 | 
,> par( mfrow = с( 1,2) ‚сех =0. 75) 
! » plot(x,3 +2 *log( x) ,"o" ,ylab="y=3+2log(x)")#b >0 i 
> plot( x,3 -2 «log( x) ,"o" „ylab = "y 23 -2log( x)" )#b <0 ; 
i»par(míirowee(1,1)) e au t t ced 
с се 
oc N 
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ep — 
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y 
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对 数 函 数 的 特点 是 随 着 x 的 增 大 ，x 的 单位 变动 对 因 变 量 у 的 影响 效果 不 断 递减 。 

3. 指数 函数 y=ae “或 y=ae”* (а>0) 

对 指数 函数 y = ace“ 两 端 求 自然 对 数 得 : logy =loga + х, 4 у' =logy, а' =loga， 则 可 
将 其 直线 化 为 y 2a! + bx 


$e ———— тош тт ж ож тт жож тш жож жш єт ж © ж ош ОО жож эш єш ш шы ы ш ыв ш © шш ж ж ——————————m 


:> plot(x,3 жехр(0. 2/x) ,"o" ,ylab =" y 23 жехр(0. 2/x)") 


‚> par( mfrow = c( 1,1) ) 
c 
w^ 
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" vm 
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降低 ， 就 可 以 用 这 类 函数 近似 表示 。 

4. ЖЖ у=ах (a >0) 

ХЕР y = ах’ 两 端 求 自然 对 数 得 : logy =loga + орх, 4 y'-logy, a'-loga, х' = 
logx ， 则 可 将 寡 函 数 直 线 化 为 y =а + bx' 
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2,"0" hiis y = Зх ^2" )#b>0 i 
> рох, 3 жх” –2,"о" ,ylabz "y =3x^-2" )#b <0 | 
I 
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这 类 函数 的 特点 是 ， 方 程 中 的 参数 可 以 直接 反映 因 变 量 y 对 于 某 一 个 自 变量 的 弹性 。 
所 谓 y 对 于 x 的 弹性 ， 是 指 x 变动 1% 时 所 引起 的 y 变动 的 百分比 。 

5. 双 曲 线 函 数 Y =a+b/x 

# х =1/x， 则 可 将 双 曲 线 函 数 直 线 化 为 y =a + bx'。 
: > раг( mfrow =e( 1,2) ,cex =0.75) Umm клет ү ан 
i> plot(x,3 +2/x,"o" ,ylab = "y 23 +2/x" )#b >0 
|» plot(x,3 -2/x, "o" „ylab = "у 23 -2/x" )#b <0 
;> par( mfrow = c(1,1)) 
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三 、 曲 线 回归 模型 的 具体 应 用 

曲线 回归 处 理 的 关键 在 于 如 何 选择 正确 的 曲线 方程 ， 而 所 确定 的 形式 可 以 是 经 验 的 
(根据 实际 观测 结果 的 表现 形式 ) 或 理论 的 (根据 变量 间 关 系 的 专业 知识 ) 。 一 般 而 言 ， 
根据 已 知 理论 确定 曲线 方程 形式 总 是 最 理想 的 选择 ， 由 此 获得 的 回归 方程 中 的 有 关 参 数 
一 般 具 有 明确 的 物理 意义 。 但 是 这 种 方法 明显 不 适用 于 经 济 分 析 ， 原 因 在 于 : 一 是 两 个 
经 济 变 量 间 的 真实 关系 太 复杂 ， 研 究 者 很 难 从 理论 上 导出 类 似 的 函数 关系 ; 二 是 同样 的 
方程 模型 ， 由 于 对 象 、 环 境 和 时 间 等 的 改变 ， 其 所 适用 的 范围 和 程度 也 有 所 不 同 。 以 往 
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在 面 对 此 类 问题 时 ， 人 们 通常 只 能 凭 经 验 (关于 不 同 函 数 曲线 形式 的 经 验 ) 和 实际 观测 
结果 (〈 散 点 图 中 数据 点 的 分 布 形式 ) 来 确定 方程 形式 ， 在 此 基础 上 再 作 拟 合 得 到 回归 方 
程 。 如 此 一 来 ， 不 但 计算 量 极 大 ， 而 且 研 究 者 的 主观 成 分 太 多 ， 无 法 在 经 济 研究 中 大 规 
模 应 用 。 

选择 最 优化 模型 的 步 又 : 

(1) 根据 以 上 可 替换 模型 ， 分 别 建立 各 自转 化 后 的 曲线 模型 。 

(2) 分 析 各 模型 的 严 检 验 值 ， 看 各 方程 是 否 达到 显著 或 极 显 著 ， 剔 除 不 显著 的 模型 。 

(3) 对 表现 为 显著 或 极 显 著 的 模型 ， 检 查 模型 系数 的 1 检验 值 ， 不 显著 的 也 子 以 项 除 。 

(4) 再 列表 比较 模型 决定 系数 六 值 大 小 ，R 值 越 大 的 ， 表 示 其 经 该 代 换 后 ， 曲 线 
关系 越 密切 。 | 

(5) 选取 R^ 值 最 大 的 模型 作为 最 优化 模型 。 

在 这 一 过 程 中 ， 模 型 的 尼 值 与 模型 系数 上 检验 的 计算 ， 可 借助 统计 分 析 软 件 R 或 其 
他 统计 软件 来 完成 。 这 样 可 大 大 减少 研究 者 的 工作 量 ， 而 且 可 提高 计算 结果 的 准确 性 ， 
增强 最 后 选择 的 客观 性 。 

【 例 4 -7】 为 了 解 百 货 商店 销售 额 x 与 流通 费 率 y (这 是 反映 商业 活动 的 一 个 质量 指 
标 ， 指 每 元 商品 流转 额 所 分 摊 的 流通 费用 ) 之 间 的 关系 ， 收 集 了 12 个 商店 的 有 关 数 据 。 

ж, 1:3, 2.18. А3, AS., 10,3, 13.5, 15.1 163. 153, 55:3, 545-5, 5.5 

yz Toa 5.5; Ж.б, 3.6. LM, LT, T 53. EA, LIS a 1 19; 1.8 

:>x=c(1.5,2.8,4.5,7.5,10.5,13.5,15.1,16.5,19.5,22.5,24.5,26.5) — — 

1>y=e(7.0,5.5,4.6,3.6,2.9,2.7,2.5,2.4,2.2,2.1,1.9,1.8) 

! > plot( x, y) f ' 
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Macs EBA i, ARDISERERI UA AX. OP. RAR PR HH EE ARR. F 
面 分 别 拟 合 这 些 曲 线 来 显示 可 化 为 直线 的 非 线 性 回归 方程 求法 。 
1. 直线 回归 


本 


(Intercept) 5.6032 0.43474 12.889  1.488e -07 


[] [] 
i Estimate Std. Error t value Pr( > tl ) i 
1 1 
š -0.1700 0.02719  -6.254 9. 456е -05 : 

I 


i > summary Im. 1 Sr. sq # 决 定 系 数 
! [1]0. 7964 
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该 模型 的 拟 合 优 度 (决定 系数 或 相关 指数 为 复 相 关系 数 的 平方 ) 


2 X. (y; - Y.) 
R =] -一 一 一 一 一 一 一 =0. 796 4 
XY. (y; - y.) 
R? =0. 796 4, 说 明 拟 合 的 效果 不 佳 。 
2. 多 项 式 回 归 


用 二 次 多 项 式 方程 y=a + bx +c 表示 。 作 变换 x, =, x, =**， 则 将 其 转化 为 直线 
回归 方程 y =a + bx, + cx; o 


Ca... ...............-Á.......-.......-.Á.Á.......-..Á.....-Á.Á...-Á.Á...-Á..-Á..-Á .Á.-Á..-Á...-..-..-Á..-Á..-.....-..-...-....-...-Á...-Á...... 


1>im2 = (у ~ xl + х2) ;summary(lm.2 准 coef # 拟 合 二 次 曲线 并 检验 之 
: Estimate Std. Error t value Pr( > tl ) 

I 
: (Intercept) 6.91469 0.331987 20.828 6. 346е -09 


х] – 0.46563 0.056969 -8.173 1. 864e -05 
х2 0.01076 0. 002009 5. 353 4. 604е -04 
i > summary ( Im. 2 $r. sq # 决定 系数 
' [1]0.9513 
: > plot( x, y) ;lines( x,fitted( lm. 2) ) # 加 回归 线 
i mo 


于 是 ， 二 次 多 项 式 方 程 为 y=6.914 69 - 0.465 63x +0. 010 76x: ， 模 型 的 拟 合 优 度 为 
R =0.951 3， 说 明 拟 合 的 效果 比 一 次 函数 要 好 。 

3. 对 数 法 

对 数 类 型 用 方程 y=a+blogx 生成 趋势 线 ， 其 中 ，log(， ) 是 以 e ( 约 为 2.718) 为 底 
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数 的 自然 对 数 函 数 。 因 为 log 函数 的 定义 域 x 为 正 值 ， 所 以 数据 集中 解释 变量 的 值 必须 为 
正 值 。 作 变换 x =logx， 则 将 其 直线 化 为 y = a + bx'。 变 换 后 的 数据 散 点 图 有 明显 的 直线 
趋势 ， 可 作 直 线 回 归 ， 经 计算 得 : 

4X = 2337 L; y = 3266.7 

І. =9. 298 8, Ly, = – 16. 336 5 

ka Ры ~ 16. 336 5 

L 9, 298 8 
a-y-bx' 23.266 7 - ( -1.756 8 x 2. 337 1) =7. 363 9 
于 是 ， 直 线 回归 方程 为 Y=7.363 9 -1.756 8x ， 相 应 的 对 数 曲 线 回归 方程 为 : 
y =7. 363 9 – 1. 756 8logx 


Head 


= —-1.756 8 


| Estimate Std. Error tvalue Pr(> | Ç ) 
i 


' (Intercept) 7. 364 0. 1688 43.64 9. 596e -13 
I 


log( x) -1.757 0.0677  -25.95 1.660e -10 
!»summary(lm.logÓ$r. sq # 决定 系数 
[1 ]0. 9854 


эре, y) ;lines( x,fitted(lm. log) ) # 加 对 数 回归 线 


— 代入 回归 方程 求 相 应 的 估计 值 y> 和 回归 曲线 。 

该 模型 的 拟 合 优 度 R =0. 985 4， 接 近 于 1， 说 明 拟 合 效果 已 很 好 了 。 

4. 指数 法 

指数 曲线 类 型 用 方程 y = ce “表示 ， 用 logy = loga + bx 生成 趋势 线 ， 作 变换 y' = logy， 
а’ =1loga， 则 可 将 其 直线 化 为 y =а + bx。 

变换 后 的 数据 散 点 图 有 一 定 的 直线 趋势 ， 可 作 直 线 回归 ， 经 计算 得 直线 回归 方程 ; 

$' = 1. 760 -0.049x 

相应 的 指数 曲线 回归 方程 为 : y=5.81e 00. 

按 此 式 将 x 代入 回归 方程 求 相 应 的 估计 值 了 和 回归 曲线 。 

该 模型 的 拟 合 优 度 R =0.915 3，R 大 于 0.90， 说 明 拟 合 效果 尚 可 ， 但 显然 不 如 对 
数 曲 线 效 果 好 。 从 直线 化 效果 看 ， 它 的 确 不 如 对 数 法 。 
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Aa edhe rb. uictor or miae i шене th arii pt agri Ty xen uoi Tan bsp КООРГЕ Каре иа ка А 


Estimate pu Error t value Pr( > f tl) 
· (Intercept) 1. 75966 0.075101 23.43 4. 543е – 10 
I 

' X —0.04881 0.004697 -10.39 1.116e -06 


| > summary( Im. exp)Sr sq # 决定 系数 
[1]0. 9153 
;> plot(x,y) ;lines(x,exp( fitted( Im. exp) ) ) # 加 指数 回归 线 


寡 函 数 的 形式 为 y=ax' (a 50), HERH y = ax 两 端 求 自 然 对 数 得 : logy = loga + 
blogx, Hj (logx, logy) 生成 趋势 线 ， 并 令 y' = ору, a'=loga, x'=logx, MTHFR% 
直线 化 为 y =а + bx', 

经 计算 得 直线 回归 方程 Y= 2.190 7 -0.472 4x"， 相 应 的 宕 函数 回归 方程 为 

=8. 942x ubica 

“wayqa 代入 回归 方程 求 相应 的 估计 值 y 和 回归 曲线 。 

Estimate Std. Error t value Pr( > | tl "i 
(Intercept) 2. 1907 0. 02951 74.23 4.806e-15 


log( x) -0.4724 0. 01184 -39.90 2.337e-12 
| > summary ( Im. pow)$r.sq # 决定 系数 
[1 ]0. 9938 


i» plot(x,y) ; lines( x, куна pow))) # find eg [e]. £X 


a <“. Áo o oo 一 


其 


该 模型 的 拟 合 优 度 R^ =0.993 8，R 非常 接近 1， 说 明 拟 合 效 果 非 常 好 ， 且 明显 好 于 
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对 数 曲 线 和 指数 曲线 的 效果 。 
小 结 〈 从 上 面 拟 合 的 模型 中 选 一 个 最 好 的 ) 


4.5.2 多 元 非 线性 回归 模型 概述 


经 济 模型 本 来 就 存在 许多 非 线 性 形式 ， 在 第 一 节 曾 处 理 过 “可 以 线性 化 的 非 线性 模 
型 ”， 即 经 过 简单 函数 变换 后 可 以 化 为 单 变量 或 多 变量 非 线性 回归 模型 的 线性 回归 模型 。 
但 是 在 一 般 情况 下 ， 非 线性 模型 难以 精确 地 线性 化 ， 这 就 需要 于 以 特别 的 考虑 。 

一 般 的 非 线 性 回归 模型 可 以 表示 为 : 

y=f(x,B) +e 

这 里 ,x 是 可 观察 的 独立 随机 变量 ，pB 是 待 估 的 参数 向 量 ,，y 是 独立 观察 变量 ， 它 的 
均值 依赖 于 x 538, e 是 随机 误差 。 项 数 形式 所 - ) 是 已 知 的 。 

按照 经 济 增长 理论 ， 可 设 定 销售 业务 的 经 济 增长 生产 函数 表达 式 为 : 

Y = Ае" L"K? 

TENE, Y 为 销售 额 ; A =e 为 基期 制度 创新 水 平 ; L 为 销售 人 员 数 ; K 为 销售 费用 ; 
a. B 分 别 为 销售 人 员 数 、 销 售 费用 的 产生 弹性 系数 ， 即 当 销 售 人 员 数 、 销 售 费 用 每 增长 
1% 时 ， 销 售 额 增长 的 百分数 ; m 表示 推移 每 单位 时 间 销 售 额 变动 的 百分数 ， 是 制度 创 
新 、 技 术 进 步 作 用 的 效果 。Cobb-Douglas 生产 函数 : 

Q = aIP KP +e 
是 非 线 性 回归 模型 的 典型 例子 。 

这 里 ，0Q 是 经 济 部 门 的 产 出 , 上 是 劳动 力 投 入 , K 是 资本 投入 ， а. B, 与 p, 是 待 估 参 
Ж. EX Y 2 Q,X' =(L,K) ,B=(a,Bi,B,)'f(X,B) = al K^, WJ Cobb-Douglas 生产 函数 
可 以 写 为 y=f (x, В) +e 的 形式 。 

31 МИРА $t ORI: 

C =B, * B,Y^ + e 

这 里 ，Y 是 居民 收入 ，C 是 居民 消费 。 其 中 参数 B, 的 估计 问题 就 很 有 必要 。 如 果 贸 
然 假 定 B, =1， 那 就 是 线性 基数 了 ， 可 是 实际 资料 也 许 会 否定 В, =1。 有 些 经济 模 型 到 底 
能 不 能 线性 化 ， 取 决 于 误差 项 的 假定 。 例 如 Cobb-Douglas 生产 函数 ， 如 果 将 误差 假定 为 
与 函数 部 分 相 乘 ， 即 Q =o Ke  ， 则 取 对 数 后 可 以 线性 化 : 

logQ = Іова + BlogL + ylogK + £ 
另外 ， 有 些 线性 回归 模型 也 可 以 视 为 非 线性 问题 ， 如 广义 最 小 二 乘 问题 
Y=XB+e,E(e) =O,Var( £) =0 Y 
的 极 大 似 然 估 计 就 可 以 被 看 作 非 线性 问题 。 
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4.5.3 多 元 非 线 性 回归 模型 的 计算 
为 了 引进 非 线性 回归 的 最 小 二 乘 方法 ， 我 们 先 考虑 一 个 简单 的 单 参数 模型 : 


Y, =f(X,,B) + е; = BX; + ВХ, +e,,E(e,) =0, Var( є;) = o° 
定义 残 差 平方 和 : 


S(B) = Xe = XY, -AXB)) 


= YI, -BX -B X,, ]° 
回归 的 最 小 二 乘 原则 还 是 要 使 残 差 平方 和 最 小 ， 于 是 对 S$ (8) RFI: 
dS _ Ë _ | df(X;,B) | 
ав 23 OC) 


x2» [ Y; -BX -BX,][ -Х,, - 2BX,, ] -0 
整理 得 : 
2g УХ, «38 У Х.Х ВУХ -2 EX, Y.) - УХ, =0 
这 是 关于 B 的 三 次 方程 ，B 就 有 三 个 可 能 的 解 ， 将 这 三 个 解 分 别 代 人 SQ), Bt 
S(B) 最 小 的 那个 解 5S(B) 即 为 回归 模型 的 最 终 解 。 
下 面 主 要 介绍 非 线 性 模型 的 Gauss-Newton 算法 。 
设 有 非 线性 回归 模型 (f( - ) 已 知 , 但 非 线 性 ) X: 
Y=f(X,B) +e 
HR 2537-77 RI У: 
S(B) = ХГУ, -f(X, 8) * 
要 使 其 取 极 小 值 ， 其 一 阶 导 数 条 件 为 : 


СОРРИ OB) _ 
ds 2 LEY O6) C - o =0 


现在 的 问题 是 要 求 出 上 述 方程 的 解 B， 并 且 判 断 出 整体 最 小 值 解 B。 
一 个 近似 办 法 是 用 f(X,,B) 的 一 阶 Taylor 展开 近似 代替 .FE ,8B)。 设 B 初 值 为 B ， 则 
fr B, КИРЕР У (X, B) 有 近似 Taylor EA: 
df( X, ,В) 


f X;,B) =f(X,,B,) t Q B:(B -pi) 

记 导 数值 为 : 
VAB) | g AAB) —/\Х,,В,) 
48 B - B 

-— df( X, ,B) 
Sig X,(8.) = 一 一 | 有， 
简 记 X, (B) dg B 
则 


S(B) = LY, -f(X,,8.) -X,(8.) (8 -B.) l? 
= Yl Y.(B.) - X.(B, )B)' 


a РЕА ЕА 


这 里 , Ү,(8,) =Y, -/(X,8)) * X;(B)Bie 


对 于 给 定 的 初 值 B, Y. (8,) ДЖ X, (8, ) 都 是 确定 的 、 可 计算 的 。 于 是 $S (8) 所 表达 
的 残 差 平方 和 正 是 线性 回归 : 
Ү,(В,) =Х (В, )B tE; 
的 残 差 平 方 和 。Malinvaud (1980) 将 上 式 称 为 拟 线性 模型 ， 其 最 小 二 乘 估计 是 ; 
B; =[X(8,)'X(8,)] 'X(8,)'Y(8,) 


这 里 ， 
Y.(B.) 
,Y(B.) | : 


X, (B.) Y, (Bı) 
因此 ， 如 果 我 们 有 待 估 参 数 В 的 一 个 初 值 8, ， 就 可 以 得 到 в 的 一 个 新 值 B,。 重 复 使 
用 这 个 方法 ， 又 有 一 个 拟 线性 模型 


Y(B,) =X(0,)B += 
HA В, -LX(8,)'X(8,) ] `! X(8,) 'YCB;) 


继续 下 去 ， 我 们 会 得 到 一 个 序列 B,，B,，…，B,，…。 我 们 可 以 写 出 一 般 迭 代表 
AX: 


В... = [X(,)'X(8,) ] ! X(B,) 'Y(B,) 
-[X(B,)'X(8,)] 'X(8,)'LY -/(X,8,) * X(B,)B,] 
-B, + [X(8,)'X(8,) ] ŽB.) LY -f(X,8,)] 
这 里 , f(X,8) = КХ,,В) ,f(X,,B)，…,f(X,,B)]。 由 于 S(B) 取 极 小 值 的 一 阶 导数 
条 件 可 被 写作 X(B)'[Y -/(X,8) ] =0， 故 若 在 迭代 过 程 中 有 B... =B,， 则 由 B, a RAV 


有 上 式 成 立 ， 85 = 0， 此 时 $ (B) 取得 一 个 极 小 值 。 由 于 非 线 性 模型 函数 形式 复杂 ， 


故 一 般 难以 建立 有 限 样 本 的 统计 性 质 ,， 但 可 以 考虑 它 的 渐 近 性 质 。 一 般 来 说 , B 是 一 致 
估计 ，Va(B -B) 的 极限 分 布 为 正 态 分 布 ， 均 值 为 0， 方差 为 PLX X7n]^ , Bth X: = 
limX(B)。 于 是 在 作假 设 检 验 时 ,可 以 用 渐 近 正 态 分 布 去 作 近 似 : B ~ N (B. 


^ 


PTX) (В) 17') „8° = 沁 B 。 具 体检 验 过 程 与 线性 回归 的 假设 检验 是 一 样 的 ， 不 过 以 


X, (Bı) 
Х(В,) 一 


X(B)'X(B) 2E XX, 

XCF B 的 渐 近 分 布 为 正 态 的 合适 条 件 ， 可 以 从 以 下 两 方面 考虑 

首先 是 残 差 假定 。 已 经 假定 s 110 样本， 均值 为 0， 方 差 为 wx ， 这 对 于 保证 有 的 
渐 近 分 布 为 正 态 已 经 够 了 。 


其 次 是 函数 A(X,B) 的 假定 。 从 分 析 过 程 可 以 看 到 ， 需 要 假定 f(X,B) 关 于 是 连续 
的 ， 关 于 B 有 二 阶 连 续 导数 。 


піз ( formula ,data , start ···) 


初始 值 ,用 列表 形式 给 出 。 


注 : 初始 值 start 的 选择 是 非 线 性 拟 合 的 难点 ， 通 常 可 用 线性 模型 的 结果 作为 非 线 性 模型 的 初始 值 。 


非 线 性 拟 合 函数 nls( ) 的 用 法 
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【 例 4 -8】 对 例 4 -7 数据 应 IEEE HUM њазинаи: 


mmm rmm mmm 


-0.1))) # 拟 合 直线 

Nonlinear regression model 

model:y ~'a +b жх 

data: parent. frame( ) 

a b 

5.60 -0. 17 

residual sum — of — squares :5. 93 
Number of iterations to convergence ; 1 


Achieved convergence tolerance :2. 36e – 09 


> plot(x,y) ;lines(x,fitted( S1) ) # 加 回归 线 


K“. ....... 2 и А чт = = ч-т шоты тош =© = Б 4 % @ е жое тт о ш шш ш ш шш ш ш шш ш ш шт т ттт ттт т ттт т т тт © © 


> (S2 =nls(y ~a+b*log(x) „start = list 


(a=5,b= -0.1))) # 拟 合 对 数 曲 线 
Nonlinear regression model 

model:y ~a + b *log( x) 

data: parent. frame ( ) 

a b 

7.36 -1.76 

residual sum - of — squares :0. 426 
Number of iterations to convergence ; 1 


Achieved convergence tolerance ;1. 47e -07 


> plot(x,y);lines(x,fited(S2) ) # 加 对 数 回 归 线 


> (S3 =nls(y ~ a *exp( b жх) „start = list 


(a=5,b= -0.1))) # 拟 合 指数 曲线 
Nonlinear regression model 

model:y ~ a *exp( b жх) 

data ; parent. frame ( ) 

a b 

6.6312 -0.0613 

residual sum — of — squares :2. 49 

Number of iterations to convergence :8 


Achieved convergence tolerance :1. 90e — 06 


> plot(x,y) ; ;lines(x,fitted(S3) ) # 加 指数 回归 线 


SUN 


formula 是 包括 变量 和 参数 的 非 线性 拟 合 公式 ;data 为 可 选择 的 数据 框 ,不 能 是 矩阵 ;start 是 
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> (54 = піз(у ~ а * (х^Ь) ,start =list(a =5,b = 


> plot(x,y);lines(x,fitted( S4) ) # jm EHR 


as 


| | 
' -0.1))) # ШИ | i | 
1 

i Nonlinear regression model : v | 
: model;y ~a *(x^b) ' € : 
' data; parent. frame( ) | 
I I "t I 
a b | x 
i 8.609 -0.452 ' рЫ i 
residual sum — of — squares :0. 164 І РА i 
' Number of iterations to convergence ;5 п 5 y a ds : 
I I 

'  Achieved convergence tolerance :6, 07e – 07 x ' 
| i i 


TT 


【 例 4 -9】 某 销售 公司 各 季度 有 关 资 料 如 表 4 -9 所 示 ， 试 以 此 求 作 该 公司 的 销售 业 
务 增 长 方式 的 生产 函数 了 =4oe Le 。 


表 4-9 — 某 销售 公司 各 季度 销售 数据 (数据 保存 在 mvstats. xls : 05.6 中 ) 


quens mic Абышка pee * ( K^b) , data = d4. N „start = list( АО = 0. 45,m = 0, 
! a=0.5,b=0.5)) i 
> model # de ал | 
|] 


ф = = == =з +» чт = — ч 4% —— — A — 4 ^ а ы чь ы mA RAS эв э = шз = S" = теш т =з тт == =т= о 0 
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n» 
: model; Y ~ АО *(exp(m *t) ) «(La) (Kb) | — — — i 
' data:d5.6 

АО т а Ь 


0.71987 0.04369 0.40798 0.71187 
residual sum — of — squares :8. 92 


Number of iterations to convergence :22 


' Formula:Y ~ АО *(exp(m *t)) *(L^a) *( K*b) 


' Parameters: 
Estimate Std. Error t value Pré > | t! ) 
i АО 0. 71987 0. 34607 2. 080 0. 07110 
! m 0. 04369 0.01115 3.919 0. 00443 * * 
' b 0. 71187 0. 04277 16. 646 1. 72е –07 ж ж * 


i Signif codes;O* * * ж '0. 001* **'0.01° «'0.05*. '0.1* "I 
! Residual standard error; |. 056 on 8 degrees of freedom 


I 
I 
I 
I 
I 
a 0. 40798 0. 17197 2.372 0. 04508 * 
I 
I 
I 
I 
1 
， Number of iterations to convergence :22 


omo ooo omo I i ie CIT . 5ш 5 5 шш сш шш ош ш шш ош шш 5 шшш шош шш шш шшш ш ..........-... -............. та т ө та ® ® шш ® ш шш шош шш ® ж шш ш ш шь ш э 


从 模型 的 拟 合 结果 看 ， 效 果 很 不 错 ， 各 回归 系数 都 显著 〈P < 0. 05), ， 剩 余 标准 差 较 

小 《1.056) ， 于 是 得 到 该 公司 的 销售 业务 增长 方式 的 生产 晒 数 : 
Y = Ae" L^ K* =0. 719 97.799 а Ааа WEM ru 87 

上 式 的 数据 表示 : 该 公司 销售 人 员 数 每 增长 1% 时 ， 销 售 额 增长 a =0.407 98%; fH 
售 费 用 每 增长 1% 时， 销售 额 增长 8=0.711 87%; 随 着 时 间 的 推移 ， 制 度 创 新 进步 使 得 
销售 额 平均 每 季度 增长 m =0. 043 69% 。 

假如 明年 一 季度 销售 人 员 增 至 75 人 ,销售 费用 增加 到 135 万 元 ， 则 可 以 预测 销售 额 
即将 达到 ; Y - A,e"L*K? =0.719 87e 99 8759 407 9% 13507187 242 090 万 元 。 

; >0.71987 *exp(0. 04369 +13) *75 ` 0. 40798 *135“0.71187 # 预 测 

; [1]242. 90 ' 

Í > predict( model , data. framect =13,L =75,K = 135) 3 
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案例 分 析 : 财政 收入 的 多 因素 分 析 及 R 操作 


财政 收入 的 规模 大 小 对 一 个 国家 来 说 具有 十 分 重要 的 意义 ， 本 案例 (不同 于 例 4.4) 
分 别 从 财政 收入 的 组 成 因素 和 财政 收入 的 影响 因素 两 个 方面 入 手 对 我 国 1979 一 1999 年 度 财 
政 收 入 情况 进行 多 因素 分 析 。 其 中 在 财政 收入 影响 因素 分 析 上 ， 本 书 除 了 通过 理论 选 出 因 
素 利 用 统计 软件 建立 模型 分 析 外 ， 还 把 影响 财政 收入 的 结构 因素 进行 了 个 别 分 析 。 最 后 还 
在 分 析 结 论 的 基础 上 ， 结 合 了 当前 的 客观 条 件 和 政策 因素 对 未 来 财政 收入 作 了 一 定 的 展望 。 

一 、 数 据 管理 

本 案例 在 书 中 例 4. 4 的 基础 上 ， 进 一 步 收集 影响 财政 收入 的 9 个 因素 : GDP、 能 源 
消费 总 量 、 从 业 人 员 和 总数、 全 社会 固定 资产 投资 总 额 、 实 际 利 用 外 资 总 额 、 全 国 城乡 居 
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民 储蓄 存款 年 底 余 额 、 居 民 人 均 消 费 水 平 、 消 费 品 零售 总 人 额 和 居民 消费 价格 指数 ,数据 
见 下 图 的 case4。 
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数据 来 源 : 中 国 统计 出 版 社 出 版 的 《中 国 统计 年 鉴 ) ， 时 限 为 1979—1999 年 。 


Я t: 年 份 ; y: 财政 收入 ; xi: GDP; x: 能 源 消 费 总 量 ; xs : 从 业 人 员 总 数 ; xs: 
全 社会 固定 资产 投资 总 额 ; xs: 实际 利用 外 资 总 额 ; х: 全 国 城乡 居民 储蓄 存款 年 底 余 
额 ; х: 居民 人 均 消 费 水 平 ; xs: 消费 品 零售 总 额 ; xy: 居民 消费 价格 指数 。 

二 、R 语言 操作 

1. 调 入 数据 


选中 case4 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case4 = read. table( " clipboard" , 
header = T), 


2. 相关 分 析 
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从 相关 分 析 结 果 可 以 看 到 财政 收入 (у) 与 国内 生产 总 值 (x, )、 能 源 消 费 总 量 
(x;)、 从 业 人 员 总 数 (x;) 、 全 社会 固定 资产 投资 总 额 (xs ) 、 实 际 利用 外 资 总 额 (xs ) 、 
全 国 城乡 居民 储蓄 存款 年 底 余 额 (xe) 、 居 民 人 均 消 费 水 平 (x; ) 、 消 费 品 零 售 总 额 (xs) 
和 居民 消费 价格 指数 (х) 的 相关 系数 分 别 为 0.985, 0. 772, 0. 834, 0.987, 0.938, 
0.995. 0.987, 0.991, 0. 934 ， 关 系 都 非常 密切 (r>0.8, p<0.001), 财政 收入 与 城乡 
居民 储蓄 存款 年 底 余额 之 间 的 关系 最 为 密切 (r =0.995, p<0.001)。 

相关 系数 表明 了 各 变量 与 财政 收入 之 间 的 线性 关系 程度 都 相当 高 ， 由 此 可 以 认为 所 
选取 的 9 个 因素 都 与 财政 收入 存在 着 线性 关系 。 

基于 此 ， 本 例 再 进行 线性 回归 分 析 ， 以 便 建立 财政 收入 与 每 个 因素 之 间 的 回归 模型 。 
本 例 以 财政 收入 为 因 变 量 ， 所 选取 的 9 个 指标 为 自 变量 。 

3. 回归 分 析 
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用 R 计算 得 回归 模型 如 下 : 
y = 一 143.218 1 -0. 113 9x, —0. 004 4x, +0. 030 4x, +0. 229 2x, -0.781 9x, 
+0. 116 4x, – 1. 494 3x, +0. 300 7x, +2. 524 4х, 

从 表 中 可 知 ， 对 财政 收入 影响 显著 的 有 x, 〈 全 社会 固定 资产 投资 总 额 ) x, CARERE 
乡 居民 储蓄 存款 年 底 余 额 ) ， 而 且 从 标准 回归 系数 值 看 其 作用 也 较 大 ， 这 不 太 符 合 实际 ， 
所 以 对 该 模型 还 需 进一步 评价 (用 逐步 回归 或 线性 回归 分 析 ) 。 

利用 该 回归 模型 计算 出 的 财政 收入 总 量 与 实际 财政 收入 的 总 量 作 出 以 下 折线 图 。 

从 拟 合 数据 和 下 面 的 折线 图 ， 可 以 看 到 利用 建立 的 模型 得 出 的 预测 数据 与 历史 数据 
有 相当 好 的 拟 和 性 ， 点 和 线 几 乎 完全 重合 。 

从 所 建立 的 影响 因素 模型 运行 结果 来 看 : 

(1) 我 国 1979 一 1999 的 财政 总 收入 的 增长 具有 相当 的 惯性 。 

(2) 财政 收入 对 СОР 的 依存 度 为 -0.113 9， 这 反映 出 ,改革 开放 以 来 ,我 国 财政 
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收入 占 GDP 的 比重 出 现 逐 年 下 滑 趋势 的 客观 事实 。GDP 分 配 格局 变化 的 原因 是 复杂 的 ， 
是 国民 经 济 运行 中 各 种 因素 综合 作用 的 结果 。 首 先是 经 济 体制 转轨 的 必然 结果 ， 我 国 经 
济 体制 改变 是 以 分 配 体制 改革 为 突破 口 的 ， 实 践 证 明 ， 分 配 体制 的 改革 促进 了 经 济 体制 
的 改革 ， 促 进 了 经 济 的 快速 增长 。 问 题 在 于 ， 一 开始 步子 迈 得 大 了 一 些 ， 有 序 性 差 了 一 
些 ， 以 后 在 较 长 时 间 内 继续 减 税 让 利 ， 虽然 政府 也 曾 做 过 一 些 调整 ,但 多 数 是 临时 性 、 
非 规范 性 措施 ， 没 有 从 根本 方针 上 加 以 解决 问题 。 我 国 财政 收入 占 СОР 的 比重 本 来 就 偏 
低 ， 出 现 负 的 贡献 系数 就 更 不 应 该 ， 因 此 我 们 应 采取 措施 提高 财政 收入 占 CDP 的 比重 。 

(3) 财政 收入 对 能 源 消费 总 量 x,、 实 际 利用 外 资 总 额 xs 出 现 负 的 依存 度 ， 可 认为 随 
着 我 国 改 革 开 放 的 深入 发 展 ， 我 们 在 能 源 消费 、 实 际 利用 外 资方 面 出 现 了 一 些 问 题 。 

(4) 财政 收入 对 全 社会 固定 资产 投资 总 额 xs 、 城 乡 居民 储蓄 存款 年 底 余额 xs 的 依存 
度 分 别 为 0. 229 2, 0.116 4， 产 出 有 赖 于 投入 、 固 定 资产 投资 有 赖 于 储蓄 存款 ， 这 一 直 都 
是 相辅相成 的 ， 在 这 里 也 体现 了 。 

(5) 财政 收入 对 实际 利用 外 资 xs 的 依存 度 为 -0.781 9， 利 用 外 资 是 有 利于 经 济 的 
发 展 ， 但 谁 从 中 得 到 最 大 的 利益 ， 从 这 个 数字 看 来 显然 不 是 政府 ， 这 可 能 与 我 国 为 了 吸 
引 外 资 而 作出 的 优惠 政策 有 关 。 

(6) 财政 收入 对 居民 消费 价格 指数 za 的 依存 度 为 2. 522 4， 财 政 收入 是 一 定量 的 货币 
收入 ， 它 是 在 一 定 的 价格 体系 下 形成 的 ， 又 是 按 一 定时 点 的 现价 计算 的 ， 所 以 价格 变动 
必然 影响 财政 收入 的 增 减 。 价 格 变动 对 财政 收入 的 影响 ， 首 先 表 现在 价格 总 水 平 升降 的 
影响 。 在 市 场 经 济 条 件 下 ， 价 格 总 水 平一 般 呈 上 升 趋势 ， 一 定 范 围 内 的 上 涨 是 正常 现象 。 
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我 国 直到 1995 年 财政 收入 占 CDP 的 比重 都 是 下 滑 的 ，1993 年 中 央 采 取 整 顿 措施 以 
后 ， 财 政 收 入 占 СОР 的 比重 才 相 对 稳定 ， 到 1996 年 开始 略 有 回升 。 分 配 体制 和 分 配 模 
式 是 由 经 济 体制 决定 的 ， 过 去 计划 经 济 体制 下 的 统 收 统 支 体制 ， 显 然 是 和 市 场 经 济 体制 
不 适应 的 ， 经 济 体制 转换 带 来 分 配 体制 的 转换 是 必然 的 。 

上 述 预 测 模型 没有 考虑 到 我 国 准备 实施 的 “ 清 费 增 税 ” 的 重大 制度 改革 ， 如 未 考虑 
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将 要 实施 的 养路 费 、 客 运 管理 费 改 为 燃油 税 ， 车 辆 购置 附加 费 改 为 车 辆 购置 税 ， 及 其 他 
可 能 出 台 的 费 改 税 改革 。 
在 进行 未 来 财政 收入 预测 时 还 应 考虑 到 以 下 几 个 因素 : 
(1) 我 国 经 济 已 经 具备 步 出 低谷 ， 出 现 复苏 的 条 件 。 
(2) 高 科技 产业 发 展 使 经 济 增长 的 科技 含量 提高 ， 为 财政 收入 增长 提供 了 物质 基础 。 
(3) 随 着 经 济 的 复苏 ， 商 品 价格 指数 将 摆脱 长 期 负增长 的 局 面 ， 有 望 出 现 止 跌 回 升 。 
(4) 随 着 我 国 经 济 结构 调整 ， 税 收 制度 发 展 ， 将 使 我 国 财政 结构 发 生变 化 。 
考虑 到 以 上 所 有 因素 ， 我国 的 财政 收入 在 预测 模型 的 预测 数量 上 还 应 有 所 增加 。 


案例 分 析 题 
仿照 书 中 的 案例 形式 ， 从 给 定 的 题目 出 发 ， 按 内 容 提 要 、 指 标 选 取 、 数 据 搜集 、 计 
算 机 计算 过 程 、 结 果 分 析 与 评价 等 方面 进行 案例 分 析 。 
1. 未 来 我 国 用 电量 的 多 因素 分 析 。 
， 未 来 若干 年 我 国手 机 供应 量 的 多 元 预测 分 析 。 
.未 来 若干 年 我 国 计 算 机 供应 量 的 多 元 预测 分 析 。 
.应 用 回归 模型 研究 股市 的 变化 规律 。 
. 居民 消费 价格 指数 逐步 回归 模型 。 
. ЖЕЖ (Жн) 供应 量 的 多 因素 分 析 。 
. 试 对 能 直线 化 的 非 线 性 模型 进行 线性 拟 合 (lIm) 和 非 线 性 拟 合 (nls) 的 结果 进 
行 对 比分 析 ， 并 举例 说 明 。 
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思考 练习 题 
Е 
. "E ПАЈО ТРА ЖН) АЛИ 9 EA? 

2. 回归 分 析 与 相关 分 析 的 区 别 与 联系 是 什么 ? 

3. 相关 关系 和 回归 关系 各 有 哪些 类 型 ? 

4. 多 元 线性 回归 模型 有 哪些 基本 假定 ? 为 什么 要 求 多 元 线性 回归 模型 满足 一 些 基本 
假定 ?” 当 这 些 假定 不 满足 时 对 回归 模型 有 何 影 响 ? 

5. 讨论 样本 容量 n 与 自 变 量 个 数 p 的 关系 。 它 们 对 模型 的 参数 估计 有 何 影 响 ? 

6. 为 什么 对 多 元 回归 系数 还 要 进行 标准 化 ? 

7. 应 用 多 元 回归 分 析 和 相关 分 析 时 应 注意 哪些 事项 ? 

8. 自 变量 选择 对 回归 参数 的 估计 有 何 影 响 ? 自 变量 选择 对 回归 预测 有 何 影 响 ? 

9. 试 述 向 前 引信 法 逐步 回归 和 回 后 剔除 法 逐步 回归 的 思想 方法 。 问 前 引信 法 、 问 后 
剔除 法 各 有 哪些 缺点 ? 

10. 试 述 变量 选择 方法 的 基本 思想 。 

11. 考虑 过 原点 的 线性 回归 模型 ，y, 28x, + 6,1 =1,2,…,n， 误 差 вү,в,, 6, 138 
足 基 本 假定 。 求 B 的 最 小 二 乘 估计 b. 

12. 线性 回归 和 非 线 性 回归 分 别 有 何 特点 ? 

13. 选择 最 优 模型 的 标准 是 什么 ? 


100. @# . 多 元 统计 分 析 及 R 语 言 建 模 


14. 多 项 式 回 归 的 特点 是 什么 ? 

15. 试 述 非 线 性 最 小 二 乘法 的 Causs-Newton 算法 的 过 程 。 
16. 请 比较 直线 化 方法 与 非 线 性 最 小 二 乘法 nls 的 区 别 。 
二 、 练 习题 ( 计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 


1. 已 知 数据 
X, 10 5 7 19 11 8 
了 15 9 3 25 7 13 


拟 合 线性 回归 模型 Y. 28, +B. X I +ei，i=1，2，…，6。 计 算出 最 小 二 乘 估计 、 拟 合 
的 佑 计 值 、 残 差 及 残 差 平方 和 。 


2. 已 知 数据 
X, 10 5 7 19 11 8 
X, 2 3 3 6 7 9 
y 15 9 3 25 7 13 


拟 合 回 归 模 型 Y =8 X, +8,Х„ +є;, i21, 2, =, 6, WRF DREE Y, X, fl X, 
标准 化 。 由 这 个 拟 合 结 果 导 出 对 原 变 量 (标准 化 之 前 ) 的 回归 方程 。 

3. 一 家 保险 公司 十 分 关心 其 总 公司 营业 部 加 班 的 程度 ， 决 定 认 真 调查 一 下 现状 。 经 
过 10 周 时 间 ， 收 集 了 该 公司 每 周 加 班 工作 时 间 y (小 时 ) 的 数据 和 签发 的 新 保单 数目 x 
( 张 ) ， 数 据 见 下 表 。 


周 l 2 3 4 5 6 7 8 9 10 
x 825 25 1070 50 480 920 130 35 670 1215 
y 3.5 1 4 2 1 3 4.5 1.5 3 5 


(1) 绘制 散 点 图 ， 并 以 此 判断 x 与 y 之 间 是 否 大 致 呈 线 性 关系 。 

(2) 计算 x 与 y 的 相关 系数 。 

(3) 用 最 小 二 乘 佑 计 法 求 回 归 方 程 。 

(4) 求 随机 误差 e 的 方差 o^ 的 估计 值 。 

(5) 计算 x 与 y 的 决定 系数 。 

(6) 对 回归 方程 作 方 差分 析 。 

(7) 对 回归 方程 作 残 差 图 并 作 一 些 分 析 。 

(8) 计算 xo =1 000 (К) 时 需要 的 加 班 时 间 是 多 少 ? 

4. 某 房 地 产 公 司 的 总 裁 想 了 解 为 什么 公司 中 的 某 些 分 公司 比 其 他 分 公司 表现 出 色 ， 
他 认为 决定 总 年 销售 额 ( 以 百 万 元 计 ) 的 关键 因素 是 广告 预算 〈《 以 千 元 计 ) 和 销售 代理 
的 数目 。 为 了 分 析 这 种 情况 ， 他 抽取 了 八 家 分 公司 作为 样本 ， 收 集 了 下 表 所 示 的 数据 。 

分 公司 广告 预算 〈 千 元 ) 代理 数 年 销售 额 〈 百 万 元 ) 


1 249 15 32 
2 183 14 18 
3 310 21 49 
B 246 18 52 
5 288 13 36 
6 248 21 43 
7 256 20 24 
8 241 19 41 
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(1) 准备 一 回归 模型 并 解释 各 系数 。 

(2) 试用 5% 的 显著 性 水 平 ， 确 定 每 一 解释 变量 与 依赖 变量 间 是 否 呈 线性 关系 。 

(3) 计算 相关 系数 和 复 相 关系 数 。 

5. 预测 一 学 校 毕 业 生 的 起 始 工资 的 变化 是 否 能 用 学 生 的 平均 成 绩 点 数 (GPA) 和 毕 
业 时 的 年 龄 来 解释 。 下 表 所 示 为 学 校 办 公 室 得 到 的 样本 数据 。 


GPA 年 龄 起 始 工 资 (元) 
2.95 22 25 500 
3. 40 23 28 100 
3. 20- 27 28 200 
3. 10 25 25 000 
3. 05 23 22 700 
2.75 28 22 500 
3.15 26 26 000 
2.75 26 23 800 


(1) 准备 一 回归 模型 并 解释 各 系数 。 

(2) 确定 学 生 的 GPA 和 年 龄 是 否 能 真正 用 来 解释 起 始 工资 样本 的 变化 。 

(3) 预测 某 GPA 为 3.00, 、 年 龄 为 24 岁 的 毕业 生 的 起 始 工资 。 

6. 研究 货运 总 量 y (万 吨 ) 与 工业 总 产值 x，( 亿 元 )、 农 业 总 产值 *。( 亿 元 )、 居 民 
非 商 品 支 出 x，( 亿 元 ) 的 关系 。 有 关 数 据 见 下 表 。 


编号 y x, X) X, 
l 160 70 35 l 
2 260 75 40 2.4 
3 210 65 40 2 
4 265 74 42 3 
5 240 72 38 ка 
6 220 68 45 1:2 
7 275 78 42 4 
8 160 66 36 2 
9 275 70 44 37 
10 250 65 42 3 


(1) HAE y, xs х,, х, WRR H IE kE РЕНК Р. 

(2) 求 y 关 于 x,、x,、x; 的 多 元 线性 回归 方程 。 

(3) 对 所 求 得 的 方程 作 拟 合 优 度 检验 。 

(4) 对 回归 方程 及 每 一 个 回归 系数 作 显 著 性 检验 。 

(5) 如 果 有 的 回归 系数 没 通过 显著 性 检验 ， 将 其 剔除 ， 重 新 建立 回归 方程 ， 再 作 回 
归 方 程 的 显著 性 检验 和 回归 系数 的 显著 性 检验 。 

(6) 使 用 变量 选择 方法 获得 一 个 最 优 回归 模型 。 

7. 钢材 供应 量 分 析 : 为 了 分 析 我 国 钢材 供应 量 情况 ， 拟 建立 一 个 影响 我 国 钢材 供应 
量 的 分 析 模 型 ， 通 过 考察 ， 认 为 影响 我 国 钢材 供应 量 Y ( 百 万 吨 ) 的 主要 因素 有 : 国内 
生产 总 值 X( 百 亿 元 )， 原 油 产 量 X,，( 百 万 吨 ) ， 生 铁 产量 XX，( 百 万 吨 ) ， 原 煤 产量 Х, 
(万 吨 ) ， 电 力 产 量 X，( 百 亿 干 瓦 小 时 )， 固 定 资产 投资 X。( 百 亿 元 )， 铁 路 运输 量 X, 


102 8) -多 元 统计 分 析 及 R 语 言 寻 模 
( 百 万 吨 ) ， 数 据 见 下 表 。 


我 国 钢材 供应 量 数据 
Y X. X X, X. X, X, X, 
22. 08 36.24 104. 05 34. 79 6.18 25. 66 668.72 1101.19 
24. 97 40. 38 106. 15 36. 73 6.35 28. 20 699.36 1 118.93 
27. 16 45. 18 105. 95 38. 02 6. 20 30. 06 746.90 1112.79 
26. 70 48. 62 101. 22 34. 17 6. 22 30. 93 961.00 1076. 73 
29. 20 52. 95 102. 12 35. 51 6. 66 32.77 1230.40 1134.95 
30. 72 59. 34 106. 07 37. 38 7.15 35.14 1430.10 1 187.84 
33. 72 71.71 114. 61 40. 01 7. 89 37.70 1832.90 1240.74 
36. 93 89. 64 124. 90 43. 84 8. 72 41.07 2543.20 1 307.09 
40. 58 102. 02 130. 69 50. 64 8. 94 44.95 3120.60 1356.35 
43.86 119.63 134. 14 55. 03 9. 28 49.73 3791.70 1 406. 53 
46.89 149.28 137. 05 57. 04 9. 80 54.52 4753.80 1 449. 48 
48. 59 169. 09 137. 64 58. 20 10. 54 58.48 4410.40 1 514. 89 
51. 53 185. 48 138. 31 62. 38 10. 80 62.12 4517.00 1 506.81 
56.38 216. 18 140. 99 67. 65 10. 87 67.75 5 594.50 1528.93 
66.97 266. 38 142. 10 75. 89 11. 16 75.39 8080.10 1576.27 
71.16 346. 34 145. 24 89. 56 11. 50 83.95 13 072.30 1626. 63 
84.28 467. 59 146. 08 97. 41 12. 40 92.81 17 042.10 1 630.93 
89.80 584.78 150.05 105. 29 13. 61 100.70 20019.30 1 658. 55 
93.38 678. 85 157.33 107.22 13.97 108.13 22 974.00 1 688. 03 
99.79 747.72 160.74 115.11 13. 73 113.56 24941.10 1 697. 34 
107.38 769.67 161.00 118.64 12. 50 116.70 28 406.20 1640.82 
121.10 805. 79 160.00 125.39 10. 50 123.93 29854.70 1671.96 
131.46 881.89 163.00 131.01 10. 00 135.56 32917.70 1 780. 23 
157.45 943.46 165.00 145. 41 11.10 147.80 36 898.40 1 925. 80 


资料 来 源 ; 国家 统计 局 . 2002 中 国 统计 摘要 . 北京 : 中 国 统计 出 版 社 ，2002 。 

(1) 计算 相关 系数 矩阵 并 绘制 矩阵 散 点 图 。 

(2) 建立 多 元 线性 回归 模型 。 

(3) 对 所 求 得 的 方程 作假 设 检验 ， 对 每 一 个 回归 系数 作 显 著 性 检验 。 

(4) 如 果 有 的 回归 系数 没 通 过 显著 性 检验 ， 将 其 蓟 除 ， 重 新 建立 回归 方程 ， 再 作 回 
归 方 程 的 显著 性 检验 和 回归 系数 的 显著 性 检验 。 ， 

(5) 应 用 逐步 回归 分 析 方 法 建立 一 个 合适 的 回归 模型 。 

(6) 使 用 变量 选择 方法 获得 一 个 最 优 回 归 模 型 。 

8. 试 编制 求 离 差 矩阵 和 决定 系数 的 R 语言 项 数 。 

9. 一 连锁 店 四 星期 内 在 五 个 零售 商场 试验 一 种 电视 机 的 不 同 价格 ， 下 表 记 录 了 和 零售 
价 和 销售 率 〈 以 市 场 中 每 千 名 顾客 记 ) 。 

(1) 绘制 散 点 图 并 插入 适当 的 趋势 线 。 

(2) 用 回归 分 析 工 具 得 到 完整 的 分 析 。 

(3) 对 价格 为 295 元 的 市 场 销售 率 进 行 预测 。 
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价格 (元 ) 销售 率 〈% ) 
275 1. 60 
300 0. 95 
325 0. 65 
350 0. 50 


375 0. 45 


10. 某 制造 三 表面 处 理 车 间 试 验 将 铬 后 污水 同 电解 污 泥 混合 ， 使 之 生成 无 毒 溶 液 ， 
效果 很 好 。 但 实际 排出 污水 的 浓度 不 完全 相同 ， 而 且 一 定 浓度 的 定量 铬 后 污水 只 有 同 定 
量 的 电解 污 泥 混合 后 才能 反应 完全 。 现 通过 试验 ， 找 出 铬 后 污水 用 量 与 电解 污 泥 用 量 之 
比 对 于 铬 后 污水 浓度 之 间 的 关系 。 试 验 数据 见 下 表 ， 其 中 ，z 为 铬 后 污水 浓度 (g/L), y 
为 铬 后 污水 用 量 (m/L) /电解 污 泥 用 量 〈m/L) 。 


(1) 绘制 散 点 图 并 插入 适当 的 趋势 线 。 
(2) 试用 书 中 介绍 的 六 种 曲线 模型 分 别 拟 合 回归 方程 ， 并 比较 曲线 模型 的 优 劣 。 
序号 x y 
1 3 310 
2 5 200 
3 10 100 
4 30 49 
5 40 40 
6 50 32 
7 60 28 
8 80 23 
9 100 16 


— 
© 
ко 
© 
= 


11 160 10 


11. 下 表 给 出 了 1975—1989 年 某 地 区 粮食 产量 y ( 亿 公 斤 ) 与 农业 劳动 力 X， (万 
人 ) 、 粮 食 播种 面积 X (万 亩 ) 、 化 肥 使 用 量 X, CBAR) 的 数据 。 

(1) 拟 合 线性 回归 模型 ， 进 行 回 归 分 析 。 

(2) 用 下 面 的 对 数 线性 模型 去 拟 合 观测 值 y: 

log (y) =Bilog (X,) +B;,log (X,) -Bilg (Х,/Х,) +e 

Hop, X,/X, 是 将 化 肥 使 用 量 改 为 每 亩 化 肥 使 用 量 。 

(3) 对 线性 模型 和 对 数 线性 模型 进行 检验 ， 比 较 两 个 模型 。 

(4) 根据 粮食 产量 的 高 低 ， 合 理 设置 虚拟 变量 ， 重 新 建立 回归 模型 ， 并 与 对 数 线性 
模型 的 效果 进行 比较 。 
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年份 
1975 5 809.0 27 561 181 593 550 000 
1976 5 891.1 27 965 181 115 597 000 
1977 5 974. 3 28 124 180 600 679 000 
1978 6 095. 3 28 373 180 881 884 000 
1979 6 442. 3 28 692 178 894 1 086 000 
1980 6 411.1 29 181 175 851 ] 269 000 
1981 6 500.4 29 836 172 437 1 335 000 
1982 7 090. 0 30 917 170 194 1 513 000 
1983 7 754. 3 31 209 171 071 1 660 000 
1984 8 146. 1 30 927 169 326 1 740 000 
1985 7 582. 1 31 187 163 268 1 776 000 
1986 7 830. 2 31 311 166 399 1 931 000 
1987 8 059. 5 31 720 166 902 1 999 000 
1988 7 881.6 32 308 165 183 2 141 500 
1989 8 151.0 33 284 168 307 2 357 400 


12. 下 表 给 出 了 1993 年 第 一 季度 到 1998 年 第 三 季度 的 四 个 变量 的 数据 : 个 人 消费 总 
支出 (PCEXP)、 耐 用 品 消费 支出 (EXPDUR)、 非 耐用 品 消费 支出 (EXPND) 及 服务 性 
消费 支出 (EXPS)。 现 在 构造 耐用 品 消费 支出 与 个 人 消费 总 支出 之 间 的 回归 模型 。 


消费 支出 数据 
季度 t PCEXP EXPDUR EXPND EXPS 
1993 - 1 4 286. 80 504. 00 1 337. 50 2445.30 — 
1993 - II 2 4 322. 80 519. 30 1 347. 80 2 445. 90 
1993-Ш 3 4 366. 60 529. 90 1 356. 80 2 480. 00 
1993-IV 4 4 398. 00 542. 10 1 361. 80 2 494. 40 
1994 -1 5 4 439. 40 550. 70 1 378. 40 2 510. 90 
1994 — 11 6 4 472. 20 558. 80 | 385. 50 2 531. 40 
1994 -II 7 4 498. 20 561. 70 1 393. 20 2 543. 80 
1994 -IV 8 4 534. 10 576. 60 1 402. 50 2 555. 90 
1995 -I 9 4 555. 30 575. 20 1 410. 40 2 570. 40 
1995-П 10 4593.60 583. 50 1 415. 90 2 594. 80 
1995 -II 1 4 623. 40 595. 30 1 418. 50 2 610. 30 
1995 -IV 12 4 650. 00 602. 40 1 425. 60 2 622. 90 
1996 - 1 13 4 692. 10 611. 00 1 433. 50 2 648. 50 
1996-1 14 4 746. 60 629. 50 1 450. 40 2 668. 40 
1996 -II 15 4 768. 30 626. 50 1 454. 70 2 688. 10 
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( 续 上 表 ) 
季度 ts PCEXP EXPDUR — EXPND EXPS 

1996 ~ IV 16 4 802. 60 637. 50 1 465. 10 2 701. 7 

1997 - I 17 4 853. 40 656. 30 1 477. 90 2 722. 10 

1997 -I 18 4872.70 653.80 1477.10 2743.60 

1997 - Ш 19 4 947. 00 679. 60 1 495. 70 2 775. 40 

1997 -IV 20 4981.00 648.80 1494.30 2804.80 

1998-1 21 505510 70.30 1521.20 2829.30 

1998 -II 22 513020 729.40 1540.980 2866. 80 

1998 – Ш 23 5 181. 80 733. 70 1 549. 10 2 904. 80 


(1) 考虑 到 要 找 出 耐用 消费 品 对 个 人 消费 总 支出 的 弹性 系数 ， 所 以 构造 寡 函 数 回 妇 
模型 EXPDUR = aPCEXP' , 

(2) 构造 服务 性 消费 支出 〈EXPS) 与 时 间 c 的 回归 模型 ， 并 且 求 出 服务 性 消费 支出 
的 增长 率 r。 服 务 性 消费 支出 曲线 一 般 用 指数 畏 数 曲线 表示 ， 因 此 ， 要 构造 指数 回归 模型 
EXPS, = EXPS, (1 *r)', 


5 上 广义 与 一 般 线性 模型 及 R 使 用 


【 目的 要 求 】 要 求学 生 针 对 因 变 量 和 解释 变量 的 取 值 性 质 ， 了 解 统计 模型 的 类 型 ; Ж 
握 数 据 的 分 类 与 模型 选择 方法 ， 并 对 广义 线性 模型 和 一 般 线 性 模型 有 初步 的 了 解 。 

【教学 内 容 】 数据 的 分 类 与 模型 选择 ; 广义 线性 模型 概述 ; Logistic 回归 模型 ; 对 数 
线性 模型 ; 一 般 线 性 回归 模型 。 


实际 数据 通常 通过 观察 或 实验 获得 。 因 变量 是 指 研究 中 主要 关心 的 随机 现象 的 数量 
化 表现 。 因 变量 受 诸 多 因素 影响 ， 这 些 影响 因素 称 为 解释 变量 。 实 验 和 观察 的 目的 就 是 
为 了 探讨 解释 变量 对 因 变 量 的 影响 〈 效 应 ) 大 小 ， 以 及 影响 效应 有 无 统计 学 意义 。 根 据 
获得 的 数据 ， 建 立 因 变量 和 解释 变量 间 恰 当 的 统计 模型 (关系 ) ， 解 决 下 列 三 个 问题 ; 

(1) 解释 变量 对 因 变 量 的 效应 。 

(2) 效应 有 无 统计 学 意义 。 

(3) 因 变 量 随 解释 变量 的 变化 规律 。 

由 于 统计 模型 的 多 样 性 和 各 种 模型 的 适应 性 ， 针 对 因 变 量 和 解释 变量 的 取 值 性 质 ， 
统计 模型 可 分 为 多 种 类 型 : 

(1) 一 般 线 性 模型 : 这 里 主要 讲 实验 设计 模型 ， 即 自 变 量 为 定性 变量 的 线性 模型 。 

(2) 广义 线性 模型 包括 Logistic 回归 模型 、 对 数 线性 模型 及 Сох 比例 风险 模型 等 。 

本 草 重 点 介绍 广义 线性 模型 和 一 般 线性 模型 及 其 R 语言 使 用 。 


5.1 数据 的 分 类 与 模型 选择 


5.1.1 变量 的 取 值 类 型 


因 变 量 记 为 yY， 解 释 变 量 记 为 x,t, ,x, ,入 = (xX) pt) o 

因 变 量 y 一 般 有 如 下 五 种 取 值 方式 : 

(1) y 为 连续 变量 ， 如 心脏 面积 、 肺 活 量 、 血 红 和 蛋白 量 等 。 

(2) у "0-1" 变量 或 称 二 分 类 变量 ， 如 实验 “成 功 ”、“ 失 败 ”, “有 效 ”、“ 无 
效 ”， 治 疗 结果 “存活 ”、“ 死 亡 ” 等 。 

(3) y 为 有 序 变量 (等 级 变量 ) ， 如 治疗 结果 “治愈 ”、“ 显 效 ”、“ 无 效 ”， 检 验 结 果 
“-”, “+” “++”. “+++” 等 。 

(4) y 为 多 分 类 变量 ， 如 脑 肿瘤 分 良性 、 恶 性 、 转 移 瘤 ， 小 儿 肺 炎 分 结核 性 、 化 脓 
性 和 细菌 性 等 。 

(5) y 为 连续 伴 有 删 失 变量 ， 如 某 病 治 疗 后 存活 时 间 可 能 有 失 访 删 失 、 终 检 删 失 和 
随机 删 失 等 。 

解释 变量 x, 一 般 有 如 下 三 种 取 值 方式 : 

(1) x, 为 连续 变量 ， 如 身高 、 体 重 等 ， 一 般 称 x, 为 自 变量 或 协 变 量 。 
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(2) x, 为 分 类 变量 ， 如 性 别 : 男 、 女 ， 居 住地 : 城市 、 村 镇 、 农 村 等 ， 称 x, 为 
н. 
(3) x, 为 等 级 变量 ， 如 吸烟 量 : 不 吸烟 、0 ~10 Z. 10-20 x, 20 ZAE, х, 可 
通过 评分 转化 为 协 变量 ， 也 可 以 看 成 因素 ， 等 级 数 看 成 是 因素 的 水 平 数 。 
5.1.2 模型 选择 方式 
1. y 为 连续 变量 
M y 为 连续 变量 时 ， 为 了 探讨 7y 和 zx, 间 的 线性 关系 ， 建 立 以 下 模型 . 
у = +Bix! +B,x; +…+Bx +£ = ХВ + е (9. 1) 
Н, ге 为 随机 误差 ,，E(s) =0。 
IB IDEE Y n 个 独立 样品 ， 对 于 每 一 个 样品 有 : 
和 =Bot+Bxit+Bxpz+…+Boxp+Ei i=1, 2, +, n 
(5.1) 式 锌 称 为 一 般 线 性 模型 。 
(1) Ух, x, `", x, 均 为 变量 时 ，(5.1) 式 就 是 上 节 讲 的 线性 回归 模型 ，y 为 因 
变量 观察 结果 加 量 ，X 为 自 变量 观察 阵 。 
(2) 当 x ，x ++", х, 是 由 因素 构成 的 哑 变 量 时 ，y 为 反应 变量 (实验 结果 ),， X 
设计 阵 。(5. 1) 式 称 为 实验 设计 模型 或 方差 分 析 模 型 。 
(3) 当 一 部 分 x, 是 根据 因素 产生 的 哑 变 量 ， 另 一 部 分 z; 是 变量 时 ，(5. 1) 式 称 为 协 
方差 分 析 模 型 。 此 时 ，(5.1) 式 可 以 写成 ; 
Y-XB*Za*e (5.2) 
其 中 , XX 是 由 哑 变 量 构成 的 设计 阵 ，Z 是 由 变量 构成 的 观察 阵 。 由 此 亦 可 看 出 协 方 
差分 析 模 型 是 回归 模型 和 实验 设计 模型 的 混合 效应 模型 。 协 方差 分 析 模 型 的 分 析 重 点 是 
在 实验 设计 部 分 ， 而 回归 部 分 是 用 来 克服 混杂 变量 一 一 协 变 量 对 实验 结果 的 影响 。 
2.y 为 0-1 变量 
一 般 用 Logistic 回归 模型 来 描述 y 与 诸 解 释 变 量 或 因素 之 间 的 关系 ， 通 过 建立 模型 得 
到 解释 变量 对 反应 变量 y 的 效应 ОК 值 。 
3. y 为 有 序 变量 
一 般 用 累积 比 数 模型 和 对 数 线性 模型 来 描述 y 与 解释 变量 之 间 的 关系 ， 解 释 变 量 可 
以 是 等 级 变量 或 因素 。 
4.y 为 多 分 类 变量 
My 为 多 分 类 变量 时 ， 宜 用 对 数 线性 模型 和 多 分 类 Logistic 回归 模型 描述 y 与 x 间 的 
关系 ， 解 释 变 量 x 既 可 以 是 因素 又 可 以 是 等 级 变量 。 
5. y 为 连续 伴 有 删 失 
一 般 用 Cox 比例 风险 模型 描述 y 与 解释 变量 x 之 间 的 关系 ,x 可 以 是 因素 或 变量 。 
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5.2 广义 线性 模型 


5.2.1 广义 线性 模型 概述 


由 于 统计 模型 的 多 样 性 和 各 种 模型 的 适应 性 ， 针 对 因 变 量 和 解释 变量 的 取 值 性 质 ， 
可 将 统计 模型 分 为 多 种 类 型 。 通 常 自 变量 为 定性 变量 的 线性 模型 称 为 一 般 线 性 模型 ， 如 
实验 设计 模型 、 方 差分 析 模 型 。 因 变量 为 非 正 态 分 布线 性 模型 称 为 广义 线性 模型 ， 如 
Logistic 回归 模型 、 对 数 线性 模型 和 Cox 比例 风险 模型 。 

对 于 一 般 线性 模型 ， 其 基本 假定 是 y 服从 正 态 分 布 ， 或 至 少 y 的 方差 o 为 有 限 常 
数 。 然 而 ， 在 实际 研究 中 有 些 观察 值 明显 不 符合 这 个 假定 。 例 如 ， 当 y 是 发 病 率 (y = k/n) 
Hf, y 服从 二 项 分 布 ， 期 望 值 和 方差 分 别 为 E(y) = m, Var(y) = 1/пхт(1- т), 72728 
tipp SEHE 的 函数 。 又 如 ， 当 y 是 单位 时 间 内 的 放射 性 计数 时 ，y 服从 Poisson 
分 布 ， 期 望 值 和 方差 分 别 为 E(y) =u,Var(y) =y, KÆ u 的 函数 。 实 际 数据 中 有 很 多 
资料 均 不 符合 一 般 线 性 模型 的 基本 假定 。 尽 管 也 可 以 将 频率 或 频数 作为 y 代入 一 般 线 性 
模型 ， 但 拟 合 结 果 往 往 不 能 令 人 满意 ， 如 出 现 频率 的 拟 合 值 y > 1 、 频 数 的 拟 合 值 Y <0 这 
些 不 合理 现象 。 

20 世纪 70 年 代 初 ，Wedderburn 等 人 在 一 般 线性 模型 的 基础 上 ， 对 o? 为 有 限 常数 的 
假定 作 了 进一步 推广 ， 提 出 了 广义 线性 模型 (generalized linear model) 的 概念 和 拟 似 然 
PAX (quasi - likelihood function) 的 方法 ， 用 于 求解 满足 下 列 条 件 的 线性 模型 ; 

E(y) =p 
m(u) = ХВ 
cou( y) =o`V(u) (5.3) 

其 中 ,mm 为 连接 函数 m(， ) 组 成 的 向 量 , Жи 转化 为 B BRERA, V(u) A n x n 
的 和 矩阵， 其 中 每 个 元 素 均 为 4 的 图 数 ， 当 各 y; 值 相互 独立 时 ,，V(p) 为 对 角 和 矩阵 。 当 
m(u) =u, У(д) =IBF, (5.3) 式 为 一 般 线 性 模型 ， 也 就 是 说 ，(5.3) 式 包 括 了 一 般 线 
性 模型 。 

在 广义 线性 模型 中 ， 均 假定 观察 值 y 具有 指数 族 概率 密度 函数 

Ку! 0,9) =expi[y0-b(0)]/Za(@) +с(у,ф) | (5.4) 

其 中 , a(，)、6(， )#le( - ) АК, 0 为 典 则 参数 。 如 果 给 定 pg (散布 

参数 ， 有 时 写作 oo ) (5.4) 式 就 是 具有 参数 0 的 指数 族 密度 函数 。 以 正 态 分 布 为 例 : 


Жу! 6,9) = —— expl - (y -ш)/20?] 


2 


= expl Op -u*/2)/o? —— [y 7o? +ln(2ma2)]| 


tj (5.4) 式 对 照 ， 可 知 
0=u,b(0) = 72,9 20^ al) = o° 


с(у,Ф) = -317/0 *£In(200? ) ) 
根据 样本 和 y 的 函数 可 建立 对 数 似 然 函 数 ， 并 可 导出 y 的 期 望 值 和 方差 。( 详 见 
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McCullagh P, Nelder JA. Generalized Linear Models. Chapman and Hall Lid, 1983) 
在 广义 线性 模型 中 ，(5.4) 式 中 的 典 则 参数 不 仅仅 是 jx BOE, BESK BS. В,, ，…， 
В, 的 线性 表达 式 。 因 此 ， 对 jy 作 变 换 ， 则 可 得 到 下 面 三 种 分 布 连接 果 数 的 形式 : 
ESSN: m(u) "a Ef; 


二 项 分 布 : т(ш) =1(727) = 之 Bixi 


Poisson 分 布 : т(д) =1п(д) = Xx; 
Logistic 属于 广义 线性 模型 的 一 种 ， 它 是 通常 的 正 态 线性 模型 的 推广 ， 它 要 求 响应 变 
量 只 能 通过 线性 形式 依赖 于 解释 变量 。 上 述 推广 体现 在 以 下 两 个 方面 : 
(1) 通过 一 个 连接 函数 ， 将 响应 变量 的 期 望 与 解释 变量 建立 线性 关系 。 
m(E(y)) =, *Bix, + Box; +++ + B,x, 
(2) 3üxt— T i25 PRA, WA RTE A H Ет — Wb 2T BE HL, 
因此 ，Logistic 是 关于 啊 应 变量 为 0 -1 定性 变量 的 广义 线性 回归 问题 ， 且 广义 线性 
模型 的 分 布 族 为 二 项 分 布 ， 见 表 5 - 1。 


表 5-1 广义 线性 模型 中 的 常用 分 布 族 
分 布 eR 模型 
正 态 (Gaussian) | E(y) =X'8 普通 线性 模型 
二 项 (Binomial ) E(y) = i ET Logistic 模型 和 概率 模型 单位 ( probit) 模型 
泊 松 ( Poisson) E( y) =exp( XB) | 对 数 线性 模型 


在 R 语 言 中 ， 正 态 (高 斯 ) 分 布 族 的 广义 线性 模型 事实 上 同 线性 模型 是 相同 的 ， 即 
gm <- glm( formula , family = gaussian ,data ) 
同 线性 模型 
fm <- lm(formula , data ) 


得 到 的 结论 是 一 致 的 ， 当 然 ， 其 效率 会 差 很 多 。 


广义 线性 模型 函数 gm( ) 的 用 法 


glm( formula ,family = gaussian , data ,*… ) 
formula 为 公式 , 即 为 要 拟 合 的 模型 


family 为 分 布 族 ,包括 正 态 分 布 (Caussian) .二 项 分 布 (Binomial ) . 泊 松 分 布 ( Poisson ) JI ES 
分 布 ( Gamma) ,分 布 族 还 可 以 通过 选项 link = 来 指定 使 用 的 连接 晒 数 
data 为 可 选择 的 数据 框 


这 样 ， 在 广义 线性 意义 下 ， 我 们 不 仅 知 道 一 般 线 性 模型 是 广义 线性 模型 的 一 个 特例 ， 
而 且 导 出 了 处 理 频 率 资 料 的 Logistic 模型 和 处 理 频 数 资 料 的 对 数 线性 模型 。 这 个 重要 结果 
还 说 明 ， 虽然 Logistic 模型 和 对 数 线性 模型 都 是 非 线性 模型 ， 即 jy ЯП В 呈 非 线性 关系 ,但 
通过 连接 限 数 使 m(j) 和 B 呈 线性 关系 ， 从 而 使 我 们 可 以 用 线性 拟 合 的 方法 求解 这 类 非 线 
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性 模型 。 更 有 意义 的 是 ， 实 际 研究 中 的 主要 数据 形式 无 非 是 计量 资料 、 频 率 资 料 和 频数 
资料 〈 半 计量 资料 实际 上 可 以 看 作 有 序 的 频数 资料 ) ， 因 此 ， 掌 握 了 广义 线性 模型 的 思想 
和 方法 ， 结 合 有 关 统 计 软 件 (如 SAS, SPSS 和 R) ， 就 可 以 用 统一 的 方法 处 理 各 种 类 型 
的 统计 数据 。 限 于 篇 幅 ， 本 文 仅 介绍 Logistic 回归 模型 。 


5.2.2 Logistic 模型 


1. Logistic 回归 模型 的 定义 

在 一 般 线 性 模型 中 ， 反 应 变量 y 的 值 是 有 实际 意义 的 ， 并 假定 y~ N(u,0 ), Чу 
二 分 类 或 0 -1 变量 时 ，y 的 取 值 为 0 或 1 仅 是 名 义 上 的 ， 没有 实际 意义 ， 此 时 y 是 服从 
Bernoulli 分 布 的 随机 变量 ， 即 y ~b(n,p)， 针 对 0 一 1 变量， 回归 模型 须 作 一 些 改进 。 

(1) 回归 函数 应 该 改 用 限制 在 [0,1] 区 间 内 的 连续 曲线 ， 而 不 能 再 沿用 线性 回归 方 
程 。 应 用 较 多 的 是 Logistic РАЖ (ER Logit 变换 ) ， 其 形式 为 : 


l e 
y-fis) и а NT. 


05 
2000 2500 3000 3500 4000 4500 
Logistic eR t f(x) = e 的 “S” 形 曲线 


l+e” 


(2) 因 变 量 y, 本 身 只 取 0，1 值 ， 不 适 于 直接 作为 回归 模型 中 的 因 变 量 , EP 表示 
у=1 的 概率 ，@ 表示 7 =0 的 概率 ，Q =1 -P。 概 率 P 是 有 实际 意义 的 ， 它 表示 y 取 值 为 
1 的 可 能 性 的 大 小 。 假 定 在 观察 反应 变量 的 同时 ， 观 察 了 p 个 解释 变量 x, х,, cns XX, 
Аа X ie fEË(x,,x,, ,x,)'。 与 线性 模型 不 同 的 是 ,我们 不 是 研究 反应 变量 的 值 与 解释 
变量 之 间 的 关系 ， 而 是 研究 反应 变量 取 某 值 的 概率 P 与 解释 变量 之 间 的 关系 。 实 际 观察 
结果 表明 ， 概 率 P 与 解释 变量 之 间 的 关系 不 是 呈 线 性 关系 ， 而 是 呈 “S” 形 曲线 关系 。 
这 是 因为 概率 分 布 函数 是 一 条 “S” 形 曲线 。Logistic 了 消 数 是 呈 “S” 形 的 曲线 ， 见 上 图 ， 
故此 一 般 用 Logistic 曲线 来 描述 P 与 解释 变量 % 之 间 的 关系 。 

exp(Bo * Bix, +++ * B,x, х 
керуе) -] pes TS v TE =] À 

对 该 式 作 Logit 变换 ， 得 : 

Logit(y) =In( 75) 2 +В, + +B,x, = X8 (5.5) 


(5.5) 式 称 为 Logistic 回归 模型 ， 其 中 Bj, Bi, ~", B, 为 待 估 参 数 。 确 定 了 它们 ， 
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(5.5) 式 就 被 确定 了 。 

2. Logistic 回归 模型 的 参数 估计 

Logistic 回归 模型 中 参数 的 估计 量 最 常用 的 是 极 大 似 然 佑 计 ， 用 Newton-Raphson 迭代 
求解 。 还 有 一 种 方法 是 根据 广义 线性 模型 的 理论 用 加 权 最 小 二 乘法 迭代 求解 ， 两 种 方法 
求 出 的 结果 基本 相同 。 下 面 简单 介绍 参数 的 极 大 似 然 估计 法 。 

设 y 是 0-1 变量 ,x,，x,，…, х, 是 与 y 相关 的 变量 ，n 组 观测 数据 为 (zx x xy) 
(i=1,2,…,n), 取 P(y,=1) =T,P(y 0) =1 - m, W y; 的 联合 概率 因数 为 : P(y ) = т; 
(1-ят;,)'7”,у;=0,1;4Ф=1,2,+,п 

ТАЁ, ул, у, 77, у, ИКРА: 

L= ПР(у) =Пт'(1 -7,) " 

ХИДРА B ХОН: 


InL = Y [yinGr;) +(1 - y,)ln( ] - т;) | = У [ул T *In(1 -т) | 
alnL 
9B, - 
运用 Newton-Raphson 3X fX B[ uj sk 8; 的 最 大 似 然 估计 B, 和 lnl, ERDERA 
B.=0, i=1, 2, =, po 在 一 些 情况 下 ，Newton-Raphson 迭代 的 收敛 性 不 好 ， 可 改 用 
Marquardt 改进 的 Newton-Raphson 迭代 法 求解 。 
3. Logistic 回归 模型 中 的 参数 检验 
t th В, 的 最 大 似 然 估计 B, 的 同时 获得 了 Fisher 信息 阵 1。 


= in ә à ... 
[= agag, PePe Ë! 


0 


I йр 17 Ж В, TER DU HARTE 严 是 B, 的 方差 。 
Var(B;) =i" ,Se(B,) = VT 

(1) B, 的 检验 。 
Н,: B, =0 


^ 


检验 统计 量 : Z=—ËB м0,1) 
Se(B,) 


^ 


WR Z«Z,, AXB =0; ЖНА В, 0. 

(2) B, 的 可 信 区 间 。 

В, 的 可 信 区 间 为 B,+ 上 2Z.Se(B,)。 

4. 实例 分 析 

【 例 $-1】R. Norell 实验 。 

为 研究 高 压 电线 对 牲畜 的 影响 ，R. Norell 研究 小 的 电流 对 农场 动物 的 影响 。 他 在 实 
验 中 选择 了 7 头 牛 ，6 种 电击 强度 (0, 1, 2, 3, 4, SmA), 。 每 头 牛 被 电击 30 下 ， 每 种 
强度 5 下 ， 按 随机 的 次 序 进行 。 然 后 重复 整个 实验 ， 每 头 牛 总 共 被 电击 60 下 。 对 每 次 电 
击 ， 响 应 变量 一 一 嘴巴 运动 或 者 出 现 ， 或 者 未 出 现 。 表 5 -2 中 的 数据 给 出 每 种 电击 强度 


п2 @ = 多 元 统计 分 析 及 R 语 言 建 模 
70 次 试验 中 的 响应 总 次 数 ， 试 分 析 电击 对 牛 的 影响 。 


#5-2 7 头 牛 对 6 种 不 同 强度 的 非常 小 的 电击 的 响应 


电流 /mA 试验 次 数 响应 次 数 响应 的 比例 

x n k k/n 

0 70 0 0. 000 
1 70 9 0. 129 
2 70 21 0. 300 
3 70 47 0.671 
4 70 60 0.857 
5 70 63 0. 900 


这 里 ， 啊 应 变量 是 分 类 的 ， 它 只 有 两 个 值 : 出 现 及 未 出 现 。 对 于 这 种 问题 ， 正 态 线 
性 模型 显然 不 合适 ， 因 为 正 态 误差 不 对 应 一 个 0 -1 响应 。 在 这 种 情况 下 ， 可 用 Logistic 
回归 : 


(>) =B, * Bux 


Hp, x 是 电流 强度 〈 单 位 : mA)。 显 然 ， 当 概率 p 取 0 到 1 之 间 的 值 时 ， 方 程 左边 
在 整个 实数 轴 上 变动 。 用 R 软件 计算 Logistic 回归 模型 的 语句 为 : 
i > nk = read. table( " clipboard" ,header = T) 
> attach( nk )# 解 析 变 量 
' >y <—cbind(k,n - k) 
| > glm. logit <- glm( y ~ x,family = binomial ) 
| » summary ( glm. logit ) 
Call: 
glm( formula = y - x , family = binomial ) 


DevianceResiduals ; 

l 2 3 4 5 6 
-2.251 0.389 -0.147 1.108 0.323 -1.668 
Coefficients : 


Estimate Std. Error z value Pr( > | zl ) 
( Intercept) -3.301 0.324 -10.2 <2e-— 16 *** 

x 1. 246 0. 112 11.1 <2e — 16 *** 
Signif. codes;O' **«'0.001* **'0.01° x'0.05'. '0.1* 'I 
( Dispersion parameter for binomial family taken to be 1) 

Null deviance :250. 4866 on 5 degrees of freedom 
Residual deviance :9. 3526 on 4 degrees of freedom 
AIC :34. 09 
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即 B, = -3.301, В, =1.246， 并 且 回 归 方 程 通过 了 检验 ， 因 此 ， 回 归 模型 为 : 


_ exp( -3.301 + 1. 246x) 
45 1 +ехр( – 3. 301 +1. 246х)' 


与 线性 回归 模型 相同 ， 在 得 到 回归 模型 后 ， 可 以 作 预 测 。 例 如 ， 当 电流 强度 为 
3. 5mA 时 ， 有 响应 的 牛 的 概率 是 多 少 ? 

' > рге = predict( glm. logit,data. гате(х =3.5)) О 

| >р = ехр(рге)/(1 + exp( pre) ) ;р 


É = = u a m uma aa iz aza sh un —————————————————————————————————— 'É 


即 电流 强度 为 3. 5mA 时 ， 有 响应 的 牛 的 概率 是 74. 26% 。 
可 以 作 控制 ， 如 要 使 50% 的 牛 有 响应 ， 电 流 强度 应 为 多 少 ? 当 p =0.5 BJ, InC P) =0， 
РТИ, х= -By Bic 
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ВП 2. 65mA 的 电流 强度 ， 可 使 50% 的 牛 有 响应 
最 后 画 出 响应 的 比例 与 Logistic 回归 曲线 图 。 
:>d=seq(0,5,len =100);d de 
! > pre <— predict( glm. logit ,data frame( x = d) ) i 
i» p = exp(pre)/(1 * exp( pre) ) 
;»yl = k/n 

| > plot( x, y1) ;lines( d, p) 


I 
! i 
oc ' 
x - | 
i >. wc | 
' „© < А 
: r: ' 
E ч ! 
' Beo А 
i N ' 
i ° : 
I 1 
' 一 : 
1 . I 
А c ' 
: 
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【 例 5 -2】 表 5 -3 为 对 45 名 驾驶 员 的 调查 结果 ， 其 中 四 个 变量 的 含义 分 别 为 : 
xy: 表示 视力 状况 ， 它 是 一 个 分 类 变量 ，!1 表示 好 ，0 表示 有 问题 ; 

x,: 年龄， 数值 型 ; 

хз: 四 车 教育 ， 它 也 是 一 个 分 类 变量 ，! 表示 参加 过 驾车 教育 ，0 表示 没有 ; 
y: 分 类 变量 (去 年 是 否 出 过 事故 ，1 表示 出 过 事故 ，0 表示 没有 ) 。 
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# 5-3 对 45 名 驾驶 员 的 调查 结果 
y x, х; x, x, xs 
1 1 17 0 17 0 
0 1 44 0 45 0 
0 1 48 0 44 0 
0 ] 55 0 67 0 
1 l 75 0 55 0 
l 0“ 35 1 61 1 
1 0 42 1 19 1 
0 0 57 1 69 0 
1 0 28 1 23 l 
1 0 20 1 19 0 
0 0 38 l 72 ] 
l 0 45 ] 74 l 
1 0 47 ] 31 0 
0 0 52 1 16 1 
1 0 55 1 61 l 


试 考察 前 三 个 变量 x, 、x, 、%; 与 发 生 事 故 的 关系 。 

XE, y 是 因 变 量 。 它 只 有 两 个 值 ， 所 以 可 以 把 它 看 作成 功 概率 为 p 的 Bernoulli 试验 
的 结果 。 但 是 和 单纯 的 Bernoulli 试验 不 同 ， 这 里 的 概率 p 为 x, ox. x, 的 图 数 。 可 以 用 
下 面 的 Logistic 回归 模型 进行 分 析 : 


In( 17) =8 * Bir +8, +B: 
对 例 5 -2 进行 计算 : 


:>d5.2=read.table("clipboard" ,header=T) — 4 4 4 4 i 
! » logit. glm <- glm( y ~ xl + x2 + х3 ,family = binomial , data = d5. 2) 


' > summary ( logit. glm ) 


Call: 
glm( formula = y ~ x1 + х2 + x3 , family = binomial , data = 45. 2) 
DevianceResiduals ; 
Min 1Q Median 3Q Max 
Coefficients : 


Estimate Std. Error. 2 value Pr( > 1 zl ) 
( Intercept ) 0.5976 0.8948 0. 67 0. 504 
xl -1.4961 0. 7049 -2.12 0. 034 * 
x2 -0.0016 0.0168 -0.10 0. 924 
x3 0.3159 0.7011 0. 45 0. 652 
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I 

I 

-1.564 -0.913 -0.789 0.964 1.600 
í 

! 

1 


一 -一 一 


Signif codes;O* ***' 0.001  **'0.01°% ж '0. 05*. '0.1* 
( Dispersion parameter for binomial family taken to be 1) 


Null deviance :62. 183 on 44 degrees of freedom 
Residual deviance :57. 026 on 41 degrees of freedom 


AIC :65. 03 


p 


1 


mmm MM 


由 此 得 到 初步 的 Logistic 回归 模型 ; 
ехр(0. 597 6 – 1. 496 1x, -0.001 6x, +0. 315 9х,) 


~ | +exp(0. 597 6 - 1. 496 1x, - 0. 001 6x, +0. 315 9x,) 


BI logit(p) 20. 597 6 — 1. 496 1x, –0. 001 бх, +0. 315 9x, 
在 此 模型 中 ， 由 于 参数 B, B, 没有 通过 检验 ， 可 类 似 于 线性 模型 ， 用 step ) 作 变量 


ЭА 


: > logit. step <— step( logit. glm, direction = "both") — — 
I Start: AIC =65. 03 
y-xl +x2 + х3 
Df Deviance 
-x2 1 57. 035 
- х3 1 57.2232 
< попе > 57. 026 
- xl 1 61.936 
Step: AIC = 63. 03 
y-xl + x3 
Df Deviance 
-x3 l 57.241 
< none > 57. 035 
+ х2 1 57.026 
- xl 1 61.991 
Step: AIC — 61. 24 
у ~ х1 
Df Deviance AIC 
< none > 57.241 61.241 
+ х3 1 57. 035 63. 035 
+ х2 l 57.232 63. 232 
- xl l 62183 64.183 
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Call: 


; » summary ( logit. step ) 


AIC 
63. 035 
63. 232 
65. 026 
67. 936 


AIC 
61. 241 
63. 035 
65. 026 
65. 991 


glm( formula = y ~ x] , family = binomial , data = d5. 3) 
Deviance Residuals ; 


Min 


10 
- 0. 8783 


TY Inm 


Median 


3Q 


Max 
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tr 一 "一 -ry 


Coefficients : I 
Estimate Std. Error z value Pr( > | zl ) | 

(Intercept) 0. 6190 0. 4688 1. 320 0. 1867 - 
xl -1.3728 0.6353  -2.161 0.0307 * 
Signif. codes:O* жжж 0. 001* xx'0.01* * 0. 05°. ”0.1° °] i 
( Dispersion parameter for binomial family taken to be 1) | 
Null deviance;62. 183 on 44 degrees of freedom | 
Residual deviance:57. 241 оп 43 degrees of freedom i 
AIC ;61. 241 ! 
i 
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可 以 看 出 新 的 回归 方程 为 : 
_ exp(0. 619 0 - 1. 372 8x,) 

P =I exp(0. 619 0 21.372 8, ) 
对 视力 正常 和 视力 有 问题 的 司机 分 别 作 预 测 ， 预 测 发 生 交通 事故 的 概率 。 
|» pl «— exp( prel )/(1 + exp( prel ) ) 
| > pre2 <— predict( logit. step, data. frame( x1 20) ) 
i > p2 <— exp( pre2) /(1 + exp( pre2 ) ) 
|»c (pl,p2) 
0.32 0.65 


bees 


Г, p, =0.32, р, =0.65， 说 明 视 力 有 问题 的 司机 发 生 交通 事故 的 概率 是 视力 正常 
的 司机 的 两 倍 以 上 。 

注意 ， 对 于 两 水 平定 性 变量 作为 因 变 量 的 回归 模型 也 不 仅 是 这 一 种 ， 这 一 种 也 不 一 
定 最 合适 ,但 限于 篇 幅 ， 这 里 不 再 著述 。 如 果 因 变量 是 多 水 平 (多 于 两 水 平 ) 的 定性 变 
量 ,统计 上 也 有 方法 处 理 ( 比如 多 元 Logistic 回归 ) ， 但 这 超出 了 本 书 的 范围 。 


5.2.3 对 数 线性 模型 


对 于 广义 线性 模型 ， 除 了 上 面 讲 到 的 Logistic 回归 模型 外 ,还 有 其 他 的 模型 ， 如 
Poisson 模型 等 ， 这 里 就 不 详细 介绍 了 ， 只 简单 介绍 R 软件 中 glm( ) 关 于 这 些 模型 的 使 用 
方法 。 

Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 的 使 用 方法 为 : 

fm <- glm( formula , family = poisson( link = log) ,data = data. тате) 
fm <- glm( formula , family = quasipoisson( link = log) , data = data. frame) 
其 直观 概念 是 ; 
In( E( y)) = +B,x, t Box; +++ +B,x, 

即 | E(y) = exp( B, *tBix, + Box, n * B,x, ) 

Poisson 分 布 族 模型 和 拟 Poisson 分 布 族 模型 唯一 的 差别 就 是 : Poisson 分 布 族 模型 要 
求 啊 应 变量 y 是 整数 ， 而 拟 Poisson 分 布 族 模型 则 没有 这 一 要 求 。 

对 于 列 联 表 还 可 以 用 (多 项 分 布 》 对 数 线性 模型 来 描述 。 以 二 维 列 联 表 为 例 ， 只 有 
主 效应 的 对 数 线性 模型 为 : 


5 广义 与 一 般 线性 模型 及 RR 使 用 әш? 


jn(my) 2a; +8; +E; 

这 相当 于 只 有 主 效应 a 和 B;， 而 这 两 个 变量 的 效应 是 简单 可 加 的 。 但 是 有 时 两 个 变 

量 在 一 起 时 会 产生 附加 的 交叉 效应 ， 这 时 ， 相 应 的 对 数 线性 模型 为 : 
In(m;) =a; +B; + (08), +E; 

由 于 前 面 对 这 个 模型 已 经 有 描述 ， 这 里 就 不 重复 了 。 

对 于 表格 中 数目 代表 一 个 变量 的 观测 数目 时 (如 例 5 -3 的 满意 人 数 ) ， 就 要 考虑 是 
ЕҤ Poisson 对 数 线性 模型 。 例 如 ， 例 5 -3 那样 有 两 个 定性 变量 、 一 个 定量 变量 的 Pois- 
son 对 数 线性 模型 可 以 表示 为 : 

In(A) =u +e, +8, * yx +E; 

AF, z 为 常数 项 ，a, IB, 为 两 个 定性 变量 的 主 效 应 ，x 为 连续 变量 ， 而 y 为 其 系 
数 ，s ,为 残 差 项 。 这 里 之 所 以 对 Poisson 分 布 的 正 参 数 À 取 对 数 ， 是 为 了 使 模型 左边 的 取 
值 范围 为 整个 实数 轴 。 | 

【 例 5 -3】 某 企业 想 了 解 顾客 对 其 产品 是 否 满意 ， 同 时 还 想 了 解 不 同 收入 的 人 群 对 
其 产品 的 满意 程度 是 否 相 同 ， 故 进行 了 一 次 问卷 调查 。 在 随机 发 放 的 1 000 份 问卷 中 ， 
收回 有 效 问卷 792 份 ， 根 据 收 入 高 低 和 满意 回答 的 交叉 分 组 数据 见 表 5 -4。 


LI 


X 5-4 顾客 对 产品 的 满意 度 (数据 在 mvstats. xls : d5. 3 中) 


在 数据 中 ， 用 y 表示 频数 ，x, 表示 收入 人 群 ，x, 表示 满意 程度 。 
模型 的 检验 过 程 如 下 : 

> ( 45. 3 = read. table( " clipboard" , header =T)) 
y xl x 

1 53 | 
2 434 2 
4. Hl 3 
4 38 | 
5 108 2 
6 48 3 
:> log. glm <- glm( y ~ x1 + x2, family = poisson( link = log) , data = d5. 3) 
i» summary ( log. glm) 

: Call: 


N 


... -o- m -— m oom oa omo Áo ooo om smse PE ТРТУ ТЕС ТЕУЧҒҒЕЗГУ ————— —— — —— —— —— oom 


118. [р 元 统计 分 析 及 R 语 言 建 模 


точ тот EE EE 


| Deviance Residuals: 


I I 
i 1 2 3 3 5 6 i 
' -10.78 14.44 -8.47 -2.62 4.96 -3.14 : 
j I 
: Coefficients: ' 


' Estimate Std. Error z value Pr( > | zl ) 

! (intercept) 6.1569 0.1420 43.37  «2e-16 «v» 
xl 0.1291 0.0437 2.96 0.0031 «« 
2 -1.1257 0.0826  -13.62 «2e-16»»« 


1 
| 1 
|l x 
Signif codes;O' **«'0.001* **'0.01 ° x'0.05'. '0.1' 'I 
| ( Dispersion parameter for poisson family taken to be 1) | | 
: Null deviance;662. 84 on 5 degrees of freedom : 
Residual deviance:437. 97 on 3 degrees of freedom : 
! AIC:482 | 

从 检验 结果 可 看 出 ，p, 20.003 1 «0.01, р, <0.01， 说 明 收 入 和 满意 程度 对 产品 有 
重要 影响 。 
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这 里 讲 的 一 般 线性 模型 主要 是 指 实验 设计 模型 。 实 验 设 计 模 型 在 方差 分 析 中 有 重要 
的 应 用 ， 在 此 将 它 进一步 分 类 ， 对 应 于 各 种 实验 设计 ， 都 有 与 之 相应 的 实验 设计 模型 ， 
而 且 它 们 都 是 模型 (5. 1) 在 各 种 设计 方案 下 的 具体 形式 ， 下 面 将 它们 一 一 列举 出 来 。 

5.3.1 完全 随机 设计 模型 

表 5 -5 是 完全 随机 设计 的 实验 结果 ， 处 理 因 素 4 有 G 个 水 平 ， 实 验 结果 是 y ,7 = 
1, 2, 0, п, i=1, 2, =, 6. 4 是 因素 ， 拟 合 模型 前 先 产 生 G 个 亚 变量 х, x,, +, 
хсо 当 实 验 结果 是 在 4 的 第 i 个 水 平 上 获得 的 ，x; =1， 其 他 亚 变量 取 值 都 为 零 。 根 据 亚 
变量 的 这 个 特性 ， 模 型 (5.2) 简化 成 如 下 形式 

yy FM +a, + e; EI. 2.25 j=1, 2, ..., n, (5.6) 

E (e) =0 cov (e) =°] 

А и 表示 观察 结果 y; 的 总 体 均值 ，a, 是 亚 变 量 的 系数 ， 称 为 4 因素 各 水 平 的 主 效 
应 ，ej 是 误差 项 。 模 型 (5.6) 可 用 和 矩阵 表示 为 

Ү=ХВ+є 

其 中 天 是 设计 阵 ， 元 素 为 0 或 1，e 是 误差 向 量 ，y 为 观察 结果 向 量 , 6= (и, о, 
а, ``", ar ) 。 

【 例 5 -4】 设 有 3 台 机 器 ， 用 来 生产 规格 相同 的 铝 合金 薄板 。 现 从 3 台 机 器 生产 出 
的 薄板 中 各 随机 抽取 5 块 ， 测 出 厚度 值 ， 见 表 5 -5， 试 分 析 各 机 器 生产 的 薄板 厚度 有 无 
显著 差异 ? 
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表 5 -5 


铝 合金 薄板 的 厚度 
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首先 将 表 5 -5 的 资料 代入 模型 (5.6) 得 : 


al +0 а, +0 о, 


7 2. 36 

yu 2. 38 

yis 2. 48 

Ум 2. 45 

his 2. 47 

Yis 2. 43 

Уз ғу) 

yn 2.24 

Ya L4 

Y ü 2. 54 

У» 2. 56 

Yos 2. 61 

Уз 2. 58 

Yn 2. 64 

Узз 2. 59 

Уз 2. 67 

Узѕ 2. 66 

Узб 2. 62 
Y 

1 1 0 

l 1 0 

l 1 0 

l 1 0 

1 1 O0 

1 1 0 

l 0 1 

l 0 1 

ы Л 
Е 
1 O 1 

10 I1 

10 0 

1 0 0 

1 0 0 

l 0 O 

l 0 O 

1 0 0 
B= (p, 


所 


+l. 


Qt 


"Qu 


a; +0 о, +0 а, 


+0 ` œ, +0 + а, 


+0 а, +0 


=з 


+0 ` œ, +0 а, 


+0 а, +0 


+1 а, +0 · 


+1 а, +0 · 


+] - w, +0 ° 


+1 ` a, +0 · 


+] ` e, +0 · 


+] ` w, +0 ° 


+0 а, +1 


+0 а, +1 · 


+0: оа, +1 · 


+0 а, +1 · 


+0 а, +1 ` 


+0 а, +1 ` 


ХВ 


oa ，a，%) ， 所 以 相应 的 数据 格式 将 是 〈 所 有 统计 软件 都 是 ) : 


Pj 
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Y 
2. 36 
2. 38 
2. 48 
2. 45 
2. 47 
2. 43 
2:57 
2.53 
2:35 
2. 54 
2. 56 
2. 61 
2. 58 
2. 64 
2. 59 
2. 67 
2. 66 
2. 62 
模型 的 R 语言 检验 过 程 如 下 : 


* = = ж= = = шш = ® тш єъ ®ш шш = ош эш ш ош эт т т тт тот тт т т чш = ош тт т т тт т т тт ч т тт т т тт ITI II + тт т т тт т т тт т от тт P I тт т т тт т т тт т т тт т т т “т т тт т т тт т т тт т т тт т т тт тот тт тот тт от т оту 


> 


ш (Q UJ ошо U9 UL ND МЮ NM МЮ 2 N mm 0 w = е кыш 


i> 45. 4 = read. table( " clipboard" , header = T) . 
> anova( 1т( Y ~ factor( A) ,data = d5. 4) ) н 
Analysis of Variance Table 
Response: Y ' 

Df Sum Sq Mean Sq F value Pr( >F) | 
factor( A) 2 0.1053 0. 0527 32.9 1. Зе – 05 *** | 
Residuals 12 0.0192 0.0016 i 


"T"T"—""Uu—-—rrTPIUTUCPITm————— IL IDTIPPPMPm—*,rr—————————————ÓÓPPM 


已 <0.05， 说 明 各 机 器 生产 的 薄板 厚度 有 显著 差异 。 
5.3.2 随机 单位 组 设计 模型 


随机 单位 组 设计 也 称 随 机 区 组 设计 。 表 5 -6 是 随机 单位 组 实验 结果 ， 处 理 因 素 4 有 
GKF, XMH В 5 п TERN AKE, ЕА 的 6 个 亚 变量 和 单位 组 的 m 个 亚 
变量 后 ， 将 实验 结果 ”表示 成 ; 

yi =u +a; +B +e, і=1, 2, .., G FET r мый (9. 7) 

Жүн В, а ИЧ А 的 第 i 个 水 平 的 效应 ; B 为 第 7 个 单位 组 的 效应 ， 
ej 为 误差 项 。 

【 例 5 -5】 使 用 4 种 燃料 ，3 种 推进 器 作 火 箭 射 程 试验 ， 每 一 种 组 合 情 况 做 一 次 试 
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验 ， 则 得 火箭 射程 列 在 表 5 -6 中 ， 试 分 析 各 种 燃料 4 与 各 种 推进 器 B 对 火箭 射程 有 无 显 
著 影 响 ? 


表 5 -6 中 处 理 因 素 是 燃料 4， 单 位 组 是 推进 器 B， 把 实验 结果 代 人 (5.7) 18: 


Yy 582] 11 1000 10 0 е, 
ys 562] |11 00 00 1 O е, 
Уз 6531 1 1 0 00001 u| je, 
Ja 491) 11 0 1 00 1 0 011a, €; 
У», 541 11 0 1 00 0 1 Ojo, ë 
yY5| |516| |l 01 000 0 1| [05 | | | es 
Уз 6011 11 0 0 10 1 0 Olla, е, 
She 709| 11 00 1 00 1 0|1, e, 
Yy 392| 1 00 100 0 1||В, €, 
Уц 758 |1 00 0 1 1 0 0|| f, ец 
Ya 582| |1 0 0 01010 E42 
Уаз 487] 10 0 0 1 0 O 1 €43 
Y X B e 

这 里 相应 的 数据 格式 将 是 : 

Y 4 B 
582 1 1 
491 2 1 
601 3 1 
758 4 1 
562 1 2 
541 2 2 
709 3 2 
582 4 2 
653 о 
516 2 3 
392 3 3 
487 4 3 

模型 的 R 语言 检验 过 程 如 下 : 
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Е mvstats. xls : 95. 5 中 选取 Al;C13 区 域 , 然 后 拷贝 
> d5. 5 = read. table( " clipboard" , header = T) 
> anova(lm(Y ~ factor( А) + factor( B) ,data = d5. 5) ) 
Analysis of Variance Table 
Response: Y 

Df Sum Sq Mean Sq Е value Pr( > Е) 

factor(A) 3 15759 5253 043 0.74 
factor(B) 2 22385 11192 0.92 0.45 
Residuals 6 73198 12200: 


Br 


Р, >0.05， 说 明 各 种 燃料 4 对 火箭 射程 无 显著 影响 ; 
Р» >0. 05, 说 明 各 种 推进 器 B 对 火箭 射程 也 无 显著 影响 。 


5.3.3 ” 析 因 设计 模型 


先 考虑 两 因素 析 因 人 分析。 假定 4 因素 有 了 个 水 平 ，B 因素 有 J 个 水 平 ， 实 验 中 共有 
1 xJ 个 处 理 ， 每 个 处 理 重复 r 次 。 两 因素 析 因 分 析 模 型 为 : 
ya =u ta; +В, +y tea i=1, 2, ..., I j=1, 2, ..., J Е=1, 2, ..., г 
(5.8) 
其 中 yj 是 实验 结果 ,jp 为 总 均 数 ，a, 是 处 理 因 素 第 i 个 水 平 的 效应 ，B, 是 行 单位 组 第 
个 水 平 的 效应 ，Yy, 为 A 的 第 i 个 水 平 与 B 的 第 j 个 水 平 的 交互 效应 。e 为 随机 误差 项 。 
根据 y, 的 意义 将 (5.8) 写成 下 列 的 形式 更 易于 理解 
ya = te, +В, + (08), +e (5.9) 
(5.9) 中 og 并 不 是 表示 а 乘 B， 而 仅 是 一 个 记号 ， 表 示 А, B 因素 间 的 交互 作用 ， 
用 这 种 形式 表示 多 因素 析 因 设计 模型 更 突出 其 优点 。 
【 例 5 -6】 为 了 研究 两 种 方法 提取 甲 、 乙 两 种 化 合 物 的 回收 效果 ， 采 用 了 2 о 析 因 
设计 实验 ， 各 种 处 理 重 复 4 次 ， 实验 结果 (IAE) 列 于 表 5 -7。 


表 5 -7 两 种 方法 提取 甲 、 乙 化 合 物 的 回收 率 


将 表 中 数据 代入 模型 (5.9) 得 : 
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yal [52] П 10101000 ei 
уњ! |48| 1 1 010 100 0 e 
уп: 1 |44| 11 010 100 0 en 
ruj |44 11010100 0 — ја, 
»a||84| 1100101 0 o0j|| | fes 
y| 1881 1 10010100 Е s 
y| |90| 1 100101 0 0|| ?| le, 
X4| |80 |1 100101 00 B € 
y| |5271 o 1 1000 1 01122 e, 
„| 1441 10 11000 1 0o||""| le, 
y| 1401 [101100 0 т 0||"?| le, 
yal 1261 10 1 10 о о 1 o[|" | |e, 
yal 147] io 10 10 0 0 1|? |e, 
y| |64 101010001 е,,, 
у 1 152] |1 01 0 10 0 0 1 £5 
Xl |45| 110 10 10 0 0 1 е, 

Y X B e 


由 上 面 列 出 的 方程 看 出 模型 (5.9) 与 模型 (5.1) ЖЯ 

如 果 析 因 分 析 中 各 处 理 的 重复 不 是 完全 随机 ， 而 是 安排 了 单位 组 ， 假 定 有 r 个 单位 
组 ， 此 时 模型 中 必须 考虑 单位 组 的 效应 8,.， 于 是 有 模型 

Ya =н +e, +B, + (08), +0, *ej (5.10) 

三 个 因素 以 上 的 析 因 设计 模型 略 显 复杂 ， 模 型 中 包含 各 因素 的 主 效应 和 各 因素 间 的 
一 级 交互 效应 和 高 级 交互 效应 。 现 以 三 因素 析 因 设计 为 例 ， 假 定 因素 4 有 了 个 水 平 ， 因 
X BB 有 J 个 水 平 ， 因素 C 有 M 个 水 平 ， 每 种 处 理 重复 "次 。 三 个 因素 析 因 设计 模型 为 : 

Yim = tA; +В, * y, + (08), + (oy), + (By) + ( aBy) im + Cin. (5.11) 

Ж y; ERAR, и УЕБ, a ЖАН і 个 水 平 的 效应 ，B; 是 行 单 位 组 
第 j 个 水 平 的 效应 ，( aB); 为 4 的 第 i 个 水 平 与 B 的 第 j 个 水 平 的 交互 效应 ， (ayuu. 
(BY)m 与 (aB); 意 义 相 同 ，( opB y); KRA 的 第 i 个 水 平 与 (BY) 的 交互 效应 , s C 的 
第 m 个 水 平 与 (08) „85 Н ЕН, RE В 的 第 j 个 水 平 与 (a Y);, 的 交互 作用 ,或 者 4 
的 第 i 个 水 平 与 B 的 第 j 个 水 平 以 及 C 的 第 m 个 水 平 之 间 的 二 级 交互 作用 。e;, 为 随机 误 
差 项 ， 独 立 同 分 布 。 

这 里 相应 的 数据 格式 将 是 : 

Y A B 
32 1 


e £ Ë Ë Š 
M кюе м м ке 
2 N M m = =— 
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һә 

CON 
iD мю N 2 2 2 2 мю = ~ 
м N N M =e e = N N 


45 2 


Wm 


|» d5. 6 = read. table( " clipboard" ,header = T) 
‚> anova(lm( Y ~ A +B +A:B,data = d5. 6) ) 
I 

Analysis of Variance Table 
i Response; Y 
I 
| 


Df Sum Sq Mean Sq Е value Pr( > Е) 

A l 1600 1600 28.4 0.00018 *** 
|! В І 2500 2500 144.4 2.3e-05 =*** 
: A:B 1 729 729 12.9 0.00366 ** 

i Residuals 12 676 56 


bese LLPPDPPrn——————————————€—€——————————|— — 


P, <0.05， 说 明 不 同方 法 对 回收 率 有 显著 影响 ; 
Р, «0.05, ， 说 明 不 同化 合 物 对 回收 率 有 显著 影响 ; 
Р.в <0.05， 说 明 方 法 和 化 合 物 之 间 的 交互 作用 对 回收 率 有 显著 影响 。 


5.3.4 正 交 实 验 设 计 模 型 


正 交 设计 与 析 因 设计 的 不 同 是 ， 析 因 设 计 是 全 面试 验 ， 多 个 处 理 组 是 各 因素 各 水 平 
的 全 面 组 合 ; 正 交 设计 则 是 非 全 面试 验 ， 多 个 处 理 组 是 各 因素 各 水 平 的 部 分 组 合 ， 或 称 
析 因 试验 的 部 分 实施 。 因 为 当 因 素 很 多 时 ,采用 析 因 设计 需 很 大 的 实验 次 数 ， 通 常 是 不 
现实 的 ， 这 时 可 考虑 采用 正 交 设计 。 

正 交 实验 设计 模型 的 形式 与 正 交 表 表 头 设计 有 关 ， 根 据 例 $ -8 中 采用 的 L (2 ) IE 
交 表 及 表 头 设计 ， 安排 4、B、C、D 四 个 因素 ， 并 考虑 4、B 的 交互 作用 ， 则 实验 结果 可 
用 如 下 线性 模型 表示 : 

Ую» “М * €; +В, + (08), + y, +0, +е (512) 

HP u, ais В,. Yno 6,2180. (B), ÆA, В 的 交互 作用 ， 此 处 采用 的 是 单 下 
标 ， 其 意义 是 将 4、B 的 交互 作用 在 模型 中 也 当 作 “因素 ”对 待 ， 这 是 由 正 交 表 的 性 质 
决定 的 ， 上 式 中 i, j, k, m, n =1, 2; r 是 实验 单位 重复 次 数 ，r = 1,2, ..., Ro 

如 果实 验 单位 有 重复 ，L。(2 ) 正 交 表 中 安排 4 个 因素 时 还 可 以 安排 一 些 一 级 交互 
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作用 项 ， 如 4 xC, C xD, B xC 等 ， 模 型 (5.12) 仍然 适用 ， 只 要 添加 效应 项 (e y),, 
(y0),, (B0),, s, t, vz1, 2 即 可 拟 合 模型 。 

【 例 5 -7】 某 农药 厂 生产 某 种 农药 ， 指 标 为 农药 的 收 率 ， 显 然 是 越 大 越 好 。 据 经 验 
知 ， 影 响 农药 收 率 的 因素 有 4 个: 反应 温度 4， 反 应 时 间 B, AAH C, RASED, f 
个 因素 都 有 两 个 水 平 ， 具 体 情 况 如 下 : A: 60%, A: 80%С, B,: 2.5h, Bj: 3.5h, Ci: 
1.1:1, C,: 1.2:1, D,: 66 500Pa, D,: 79 800Pa， 并 考 虚 4，B 的 交互 作用 。 选 用 正 交 
RL (2') 安排 试验 。 按 试验 号 逐次 进行 试验 。 得 出 试验 结果 分 别 为 (%) 86, 95, 
91, 94, 91, 96, 83, ，88 ， 试 用 方差 分 析 法 分 析 影 响 因 素 并 给 出 最 佳 方案 。 


表 5 -8 EZR L (2') 安排 试验 


to м ú 
= N N _ ке 
u = 


OS 
ИШИ ИШ ЕЗ 
1 1 ! 
2 2 
1 2 
2 1 
2 2 
1 1 
2 1 
1 2 


EN 
1 
2 
1 
2 
l 
2 
] 
2 


这 时 的 数据 格式 将 是 
A B CD Y 
1 1 1 1 86 
1122 95 
y 3 1 9 9i 
1221 94 
2.5 12 91 
2 1 2 1 96 
2 2 11 8 
2 2 2 2 88 


模型 的 R 语言 检验 过 程 如 下 


126. лата 


亲本 


i > 45. 7 = read. table( " clipboard" ,header = T) 


Residuals 2 5.0 2.3 


I 
,> anova(lm(Y ~A +B +A *B +С +0, даа =d5. 7) ) : 
Analysis of Variance Table : 
: Response: Y i 
Df Sum Sq Mean Sq F value Pr( >F) 
; А 1 8&0 80 3.2 0.216 
B 1 18.0 1&0 7.2 0.115 | 
; c 1 605 605 24.2 0.039 » | 
i D I 45 45 1.8 0.312 | 
| A.B I 500 500 200 0.047 * : 
| 
| : 
| 


= = = = = == а | 


P, >0. 05， 说 明 反应 温度 4 对 农药 的 收 率 无 显著 影响 ; 
Р, >0.05， 说 明 反应 时 间 В 对 农药 的 收 率 无 显著 影响 ; 
P, <0.05， 说 明 原料 配 比 C 对 农药 的 收 率 有 显著 影响 ; 
Pls <0.05， 说 明 反 应 温度 A 和 反应 时 间 В 之 间 的 交互 作用 对 农药 的 收 率 有 显著 影响 。 


案例 分 析 : 广义 线性 模型 应 用 及 R 操作 


下 表 是 关于 40 个 不 同年 龄 (age， 定 量变 量 ) 和 性 别 (sex, EERE, 用 0 和 1 (Ç 
表 女 和 男 ) 的 人 对 某 项 服务 产品 的 观点 〈y， 二 水 平定 性 变量 ,用 1 和 0 代表 认可 与 不 认 
可 ) 的 数据 。 


一 、 数 据 管理 

12 т 
Al 

к= в. p j| t  l.€ H I K 

Ed ; [jo . 

2j 0 1 

3j ° 1 57 

41 0 1 “ 

ә 1 1 20 

| o 0 50 

了 .| о 1 22 

8 o 1 40 
i 0 29 
0 i 68 
0 0 66 
1 1 28 
1 0 4 
0 0 4 
1 0 $3 
0 1 69 
1 o 63 
1 0 4T 
0 0 67 
0 0 65 
0 1 66 
0 0 24 
1 0 38 
0 1 24 
1 i 40 
1 1 эз 
1 1 i6 
0 1 68 
1 0 28 
1 о 43 
1 
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r; 


二 、R 语言 操作 

1. 调 入 数据 

选中 case5 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case5 = read. table( " clipboard" , 
header = T), 

2. 广义 线性 模型 (Logistic) 

这 里 观点 是 因 变 量 。 它 只 有 两 个 值 ， 所 以 可 以 把 它 看 作成 功 概率 为 p 的 Bernoulli iX 
验 的 结果 。 但 是 和 单纯 的 Bemoulli 试验 不 同 ， 这 里 的 概率 p 为 年 龄 和 性 别 的 函数 。 可 以 
假定 下 面 的 模型 ( 称 为 logistic 回归 模型 ) 


(12) = B, + Bix + a;, 这 里 i = 0,1 代表 女性 和 男性 
显然 ， 当 概率 p 取 0 到 1 之 间 的 值 时 ， 方程 左边 在 整个 实数 轴 上 变动 。 为 了 循序 渐 
进 ， 先 拟 合 没 有 性 别 作 为 自 变 量 (只 有 年 龄 x) 的 模型 


co 
[r] = Bo + Bix 或 者 等 价 地 р т 


依靠 计算 机 ， 很 容易 得 到 Bo 和 B, 的 估计 分 别 为 2.358 8 和 -0. 054 7。 拟 合 的 模型 为 
In( ——) = 2.358 8 – 0. 054 7x 
1-р 


可 以 看 出 ， 年 龄 的 增长 对 认可 有 负面 影响 。 下 面 再 加 上 性 别 变量 进行 拟 合 ， 得 到 的 
В,, BiA ao, 的 佑 计 《〈 同 样 事先 确定 为 wm 20) 27910 2.921 9, –0. 055 6, –1. 0717, 
可 以 看 出 年 龄 影响 和 男女 混合 时 的 模型 (8, = -0. 055 6) 差不多 ， 而 女性 相对 于 男性 认 
可 的 可 能 性 大 (ao - a, =1.0717)。 对 于 女性 和 男性 ， 该 拟 合 模型 为 


In( =) = 2.921 9 — 0.055 6age - 1. 071 7sex 
=p 
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тїп Ре A Р се мас: TT CN 
4 在 Rcode .x1s 的 表单 case5 中 选中 取 据 并 复制 
'caseSeread.tabie("clipboard",headere-T| 


- : se 
Coefficients: (fm, дата. fr ist (зех, age))}) emm 
n; ians 


Deviance Re ls: 

Min 10 Median 3Q Max 

$83 -0.696 -0.513 0.984 1.790 
Coefficient 

Estimate а ue 

(Intercept) 2.921 .240 2.3€ 0.019 
sex -1.071 0.7110 21.51 0.132 
age -0,0556 0.0248 -2.25 0.025 * 


Signif. codes: 0 ***** 0,001 '*** 0.01 '% 0.05 *.* 0.1 ”1 
(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 55.352 on 39 degrees of freedom 
Residual deviance: 47.005 on 37 degrees of freedom 
Aic: 53 

ro 


f Fisher Scoring iterations: 4 
i 
| > 
| 

i. 


€ ¿ma a ABO Anasa az Pie ra Arne ftre in aaraa: A anbe ains | 


案例 分 析 题 
仿照 书 中 的 案例 形式 ， 从 给 定 的 题目 出 发 ， 按 内 容 提 要 、 指 标 选 取 、 数 据 搜集 、 计 
算 机 计算 过 程 、 结 果 分 析 与 评价 等 方面 进行 案例 分 析 。 
. 试 建立 一 个 实际 问题 的 一 般 线性 模型 。 
. 试 建立 一 个 实际 问题 的 Logistic 回归 模型 。 
. 消费 支出 数据 的 非 线 性 回归 分 析 。 
. Cobb - Douglas 生产 函数 的 非 线性 回归 分 析 。 
. 国内 生产 总 值 随时 间 变 化 的 趋势 分 析 。 
财政 收入 随时 间 变 化 的 趋势 分 析 。 
. 税收 随时 间 变 化 的 趋势 分 析 。 
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思考 练习 题 

一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 

1. 一 般 线性 模型 包括 哪些 模型 ? 

2. 广义 线性 模型 包括 哪些 模型 ? 

3. 解释 变量 一 般 有 几 种 取 值 方式 ? 

4. 反应 变量 一 般 有 几 种 取 值 方式 ? 

二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 

1， 现 有 甲 、 乙 、 丙 三 个 工厂 生产 同一 种 零件 ， 为 了 了 解 不 同 工 厂 的 零件 的 强度 有 无 
明显 的 差异 ， 现 分 别 从 每 一 个 工厂 随机 抽取 部 分 零件 测定 其 强度 ， 数 据 如 下 所 示 ， 试 问 
三 个 工厂 的 零件 的 平均 强度 是 否 相同 ? 
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工厂 ”零件 强度 

H 103 101 98 110 

Z, 113 107 108 116 115 109 

两 82 92 84 86 88 

2. 生产 某 种 化 工 产品 时 ， 要 比较 四 种 不 同 配方 对 生产 率 的 影响 。 考 虑 到 生产 率 随 生 
产 日 不 同 而 变动 较 大 ， 所 以 把 实验 日 期 也 选 为 因子 。 实 验 分 四 天 进行 。 配 方 因 子 和 日 期 
因子 分 别 用 4、B 表示 ， 数 据 如 下 : 


试 分 析 不 同 配方 和 不 同日 期 对 生产 率 有 无 影响 。 

3. 考虑 一 个 化 学 反应 过 程 ， 有 两 个 因素 ， 因 素 4 为 反应 物 的 浓度 ， 它 有 两 个 水 平 ， 
A, (15%), ，4，(25% ) ， 因 素 B 为 催化 剂 是 否 使 用 ， 它 有 两 个 水 平 ，B。( 不 用 ) ,8B， 
(用 ) ， 每 种 组 合作 3 次 试验 ， 结 果 如 下 表 : 


化 学 反应 过 程 试 验 结果 


(1) 试 写 出 其 一 般 线 性 模型 的 矩阵 表示 。 

(2) 试 分 析 因 子 4、B 和 交互 作用 4 xB 对 化 学 反应 的 影响 。 

4. 在 某 化 学 工程 中 ,为 了 提高 原料 利用 率 ， 选 定 辅料 的 供给 速度 (A) 及 其 浓度 
(B) 两 个 因子 进行 实验 。 各 因子 的 水 平 如 下 所 示 : 

A: A, (Skg/h), A, (15kg/h), A, (25kg/h) ; 

B. В, (5%), В, (10%), В, (15%), B, (20%), 
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试 分 析 因 子 A. B 和 交互 作用 4 xB 对 提高 原料 利用 率 的 影响 。 

5. 磁 鼓 电机 是 彩色 录像 机 磁 鼓 组 件 的 关键 部 件 之 一 ， 按 质量 要 求 其 输出 力矩 应 大 于 
210g - cm。 某 生产 厂 过 去 这 项 指标 的 合格 率 较 低 ， 从 而 希望 通过 试验 找 出 好 的 条 件 ， 以 
提高 磁 鼓 电机 的 输出 力矩 。 


磁 鼓 电机 输出 力矩 


充 磁 量 定位 角度 “| 定子 线圈 看 数 | ”试验 结果 y 输出 力矩 
10 “T (TV180) rad mE 


ою 00 s QN A A UU N m 


6. 试 对 第 6 章 练习 题 1 的 数据 进行 Logistic 分 析 。 
7. 试 对 第 6 章 练习 题 4 的 数据 进行 Logistic 分 析 。 
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[BWER] 理解 判别 分 析 的 目的 、 意 义 及 其 统计 思想 ; 了 解 并 熟悉 判别 分 析 的 三 种 
类 型 ， 特 别 是 Bayes 判别 方法 的 统计 思想 ; 掌握 教材 中 给 出 的 不 同 判 别 方法 的 判别 规则 
和 判别 函数 的 结构 ; 利用 统计 软件 中 的 相应 程序 ， 实 际 计算 教材 中 给 出 的 习题 ; 熟悉 对 
两 总 体 样本 的 距离 判别 法 、Fisher 判别 法 和 Bayes 判别 法 的 具体 计算 步骤 ， 并 比较 其 
异同 。 

【教学 内 容 】 判别 分 析 的 目的 和 意义 ; 判别 分 析 中 所 使 用 的 几 种 判别 尺度 的 定义 和 基 
本 性 质 ， 包 括 距离 判别 法 、Fisher 判别 法 、Bayes 判别 法 及 逐步 判别 法 ; 计算 程序 中 有 关 
判别 分 析 的 算法 基础 。 


6.1 判别 分 析 的 概念 


判别 分 析 (discriminat analysis) 是 多 变量 统计 分 析 中 用 于 判别 样品 所 属 类 型 的 一 种 
统计 分 析 方 法 。 它 所 要 解决 的 问题 是 在 一 些 已 知 研究 对 象 已 经 用 某 种 方法 分 成 若干 类 的 
情况 下， 确定 新 的 样品 属于 已 知 类 别 中 的 哪 一 类 。 判 别 分 析 在 处 理 问 题 时 ， 通 常 要 给 出 
一 个 衡量 新 样品 与 各 已 知 类 别 接近 程度 的 描述 统计 模型 ， 即 判别 函数 ， 同 时 也 需 指定 一 
种 判别 规则 ， 借 以 判定 新 样品 的 归属 。 判 别 规则 可 以 是 确定 性 的 ， 确 定 新 样品 所 属 类 别 
时 ， 只 考 碟 判别 函数 的 大 小 ; 判别 规则 也 可 以 是 统计 性 的 ， 确 定 新 样品 所 属 类 别 时 用 到 
概率 性 质 。 根 据 判别 准则 的 不 同 ， 在 判别 分 析 法 中 前 者 属 Fisher 判别 ， 后 者 属 Bayes 
判别 。 

所 谓 判别 分 析 法 ， 就 是 在 已 知 的 分 类 之 下 ， 一 旦 遇 到 新 的 样品 ， 可 以 利用 此 法 选 定 
一 判别 标准 ， 以 判定 将 该 新 样品 放置 于 哪个 类 中 。 换 句 话 说， 设 有 数 个 群体 ， 此 时 ， 取 
数 个 变量 ， 作 成 适当 的 判别 标准 ， 即 可 辨别 该 群体 的 归属 。 在 此 处 我 们 想 要 讨论 的 情况 ， 
看 起 来 与 聚 类 分 析 法 类 似 ， 似 乎 都 是 要 将 观察 值 分 群 分 类 ， 但 是 它们 的 使 用 前 提 及 意义 
是 不 同 的 。 判 别 分 析 的 理论 基础 是 根据 观测 到 的 某 些 指标 的 数据 对 所 研究 的 对 象 建立 判 
别 函 数 ， 并 进行 分 类 的 一 种 多 变量 分 析 方 法 。' 判 别 分 析 所 研究 的 是 已 知 分 类 的 对 象 ， 如 
已 知 健康 人 和 和 冠 心 病人 的 血压 、 血 脂 资料 ， 依 此 建立 判别 函数 ， 并 对 新 样品 预测 其 分 类 。 

判别 分 析 法 用 途 很 广 ， 如 动 植物 分 类 、 医 学 疾病 诊断 、 社 区 种 类 划分 、 气 象 区 (或 
农业 气象 区 ) 划分 、 商 品 等 级 分 类 、 职 业 能 力 分 类 ， 以 及 人 类 考古 学 上 年 代 及 人 种 分 类 
等 均 可 利用 。 例 如 ， 在 医学 中 ,临床 医师 根据 患者 的 主诉 、 体 征 及 检查 结果 作出 诊断 ， 
有 时 还 需 作 鉴 别 诊断 或 分 型 、 分 类 的 诊断 ; 根据 病人 各 种 症状 的 严重 程度 预测 病人 的 病 
症 ， 或 某 些 治疗 方法 的 疗效 评估 。 又 如 环境 污染 程度 的 鉴定 及 环保 措施 、 劳 保 措 施 的 效 
果 评 估 ; 流行 病 学 中 某 些 疾病 的 早期 预报 ， 疾 病 的 病因 学 研究 及 影响 因素 的 分 析 等 。 
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判别 分 析 方法 较 多 ， 本 章 给 出 以 下 五 种 常用 的 方法 : 
距离 判别 


线性 判别 
Fish | 
判别 分 析 方法 | 非 线性 判别 f Fisher 7091 ОТОО 


典型 判别 J 
Bayes 判别 (属于 概率 性 判别 ) 


6.2 线性 判别 分 析 


最 早 提出 合理 的 判别 分 析 法 者 首 推 R. A. Fisher (1936), Fisher 提出 将 线性 判别 函数 
用 于 花卉 分 类 上 ， 将 花卉 的 各 种 特征 (WERKS, ESKS) 利用 线性 组 合 方 
法 变 成 单 变量 值 ， 再 以 单 值 比较 方法 来 判别 事物 间 的 差别 。 

下 面 以 两 类 判别 为 例 说 明之 。 设 有 两 类 样品 ， 其 分 别 含 rn, 、ne 个 样品 ， 各 测 得 p 个 
指标 ， 观 察 值 如 表 6 -1 所 示 。 

iau vr Byz p PRX (linear discriminatory function) 为 : Y =a X, +a,X, ++ 
a, X, =a 下 使 得 该 判别 函数 能 根据 指标 Х|, X,, cn. X, 之 值 区 分 各 样品 应 归属 哪 一 类 。 
式 中 ，a;(i=1,2,…,p) 称 为 判别 系数 。 在 判别 函数 式 建 立 后 ， 还 需求 得 临界 值 ， 作 为 判 
断 的 标准 。 


表 6 -1 判别 分 析 数 据 结构 表 
变量 分 类 
例 号 

X, X, X, Y 
l Xu Xi Xi, 1 
2 X4 X23 Xap ] 
n, р х„› Aa 1 
| s 2 
2 2 
n; Xn Xn? T х. 2 


图 6 -1 是 当 p=1 时 两 类 判别 的 示意 图 ， 从 中 可 以 看 到 ， 对 单 变量 情形 ， 两 类 判别 
分 析 类 似 于 两 样本 均值 上 检验 ， 只 有 当 u зр, 时 ， 两 类 才能 进行 判别 分 析 。 
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判别 分 析 d utn 


M, | и; 
86-1 单 变量 情形 判别 分 析 示 意图 


1. Ж Fisher 线性 判别 函数 
Fisher 判别 准则 要 求 各 类 之 间 的 变异 尽 可 能 地 大 ， 而 各 类 内 部 的 变异 尽 可 能 地 小 ， 变 
异 用 离 均 差 平方 和 表示 。 用 分 离 度 À 来 表示 即 要 求 : 
БЛА _ (Y, - У.) 
2—5 或 人 = S 
Е 2 _ 2 
oh, SONAJ, si = "СИЭР к» ЭЗ: 
差 矩阵 。 _ 
Fisher 判别 的 目标 是 选择 适当 的 x 的 线性 组 合 ， 使 得 均值 Y, 和 Y, 之 间 的 分 离 度 达到 
最 大 。 
定理 6.1 REAME Ү=а'Х=(Х, -X,)'Sp'X 对 所 有 可 能 的 线性 系数 向 量 a^, (ei 
À 达到 最 大 ， 且 最 大 值 为 D = (X, - X,)'S;'(X, -Х,). 
证 明 : 
А ког. hi _ (a'X, -a'X,)! _ (a'd)* 
i S; a'Spa a'Spa 
其 中 , 4=(Х,-Х,). 
(a'd)? 


a'Spa 


，S1 和 5 ;为 各 组 的 协 方 


于 是 ，maxA = max =d'S-'d= (X, -X,)'S-'(X, A om = p° 


2. 计算 判别 界 值 
求 得 a, 后 ， 代 入 判别 饥 数 式 即 得 判别 消 数 。 
求 判别 界 值 Y。: 把 类 1、 类 2 中 各 指标 的 均 数 分 别 代 和 判别 晒 数 式 : 
Y, -a'X, 
ls -a'X, 
然后 以 两 均 数 的 中 点 作为 两 类 的 界 点 : 
y.h*h 
о 2 
3. 建立 判别 标准 | 
M ү <Ү, Е, S Y«Y,, M| Xe G, , И] X e G, 
MY, >Y, 时, Y<y, MJ Xec,, 否则 XeG,， 
= Ү=Ү,, 待 判 。 
【 例 6 -1】 根 据 经 验 ， 今 天 和 昨天 的 湿 温差 x, 及 气温 差 x, 是 预报 明天 下 十 或 不 下 雨 
的 两 个 重要 因子 ， 试 就 表 6 -2 的 数据 建立 Fisher 线性 判别 图 数 并 进行 判 唱 。 设 今天 测 得 
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x, 28.1, x, =2.0 ,试问 应 该 预报 明天 是 雨天 还 是 上 晴天? 


表 6 -2 雨天 和 晴天 的 湿 温 差 x, 和 气温 差 x, 
WMA (A) 晴天 (B) 

组 别 x, х; 组 别 ж х› 
1 -1.9 3.2 2 0.2 6. 2 
і -6.9 0.4 2 -0.1 7.5 
1 s 2 2.0 2 0.4 14. 6 
1 5.0 2.5 2 2.7 8.3 
1 7:3 0.0 2 2.1 0.8 
1 6. 8 12.7 2 -4.6 4.3 
1 0.9 -5.4 2 -1.7 10.9 
1 -12.5 -2.5 2 -2.6 13.1 
1 1.5 1.3 2 2.6 12.8 
l 3.8 6.8 2 -2.8 10.0 


下 面 是 用 R 语言 进行 线性 判别 的 函数 lda。 


线性 判别 分 析 函 数 lda( ) 的 用 法 


lda( formula, ，data，… ) 


formula 为 一 个 形 如 groups ~ xl + х2 + … 的 公式 框架 


data 为 数据 框 


i> d6. 1 = read. table( " clipboard" ,header = T) 
‚> attach(d6.1) # 解 析 变 量 

:> plot(xl,x2) ;text(x1 ,x2,G,adj = -0.5) 
: w^ 

( — 


© == ы тю = ож отт тож тт т тота т жт отш ж от отт ж ош тш т от тт т от отт = т отт тош тт т от тш т т тт т от чш ж от == тот тш т от тш т ош жш ож отт тот тт тот тш тот тт т ож тт т ож тш тож жт ж т тт тош mm ъ ш ты ж ж ты ec эв Rm МЫ ш шы ы ш ыш = ыч 
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i» (Id 2lda(G -xl +х2)) 

! Call: 

К AMa(Gwdd $3) 
!  Pnor probabilities of groups: 
< 12 

; 0.5 0.5 

Group means; 

xl x2 
| 1 092 2.10 
| 

i 

i 


2 -0.38 8.85 
Coefficients of linear discriminants : 
LDI 
xl —0. 1035 
i x2 0.2248 
! > Z = predict(ld) 
:> newG =Z $class 
:> cbind( G,Z $x,newG) 
' G ш newG 


roO .. єт ш шш ш єт ш ют . -. . --: т - D тт т т тт тот тт т т тт т т т %# + ЯЖ 22 ЭЧ # = Ф= ж ® ш > ж 


: 1 1 -0.28675 1 
i 2 1 -0.39852 1 
! 3 1 -1.29157 1 
| 4 1 -1.15847 1 
i 5 1 -L95858 1 
| 6 1 0.94809 2 
: 7 1 -250988 1 
| 8 1 -047066 1 i 
; 9 1 -106586 1 | 
i 10 1 -006761 1 : 
! 1 2 0.17022 2 | 
: 12 2 0.49352 2 | 
i 13 2 2.03780 2 | 
: 14 2 0.38347 2 : 
: 15 2 -1.24038 1 | 
| 16 2 0.24006 2 | 
:17 2 1.42347 2 
i 18 2 2.01120 2 : 
| 19 2 1.40540 2 | 
: 20 2 133904 2 | 


基站 
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= = 一 一 一 一 和 一 一 = 一 一 


‚> (tab =table(G,newG) ) 
newG 
G l 2 
l 9. 3 
2 41.9 
> sum( diag( prop. table( tab) ) ) 


e ————————————————————————— ———— M ———————————————— ж чш ж ————— — ———————————————- 


可 见 两 类 错 判 的 各 有 1 例 ， 判 对 的 共有 18 例 ， 故 判别 符合 率 为 18/20 290.096. VA 
上 为 回顾 性 考核 。 还 可 进行 前 瞻 性 考核 ， 即 将 一 些 新 的 数据 代入 判别 销 数 后 ， 观 察 其 符 
合 率 。 所 建立 的 判别 消 数 的 优 和 劣 ， 主 要 应 看 其 前 脆性 判别 效果 如 何 ， 建 立 判 别 函 数 的 目 
的 主要 是 用 于 判别 新 样品 ， 对 新 样品 进行 分 类 。 实 际 建立 判别 函数 时 ， 所 用 样本 应 采用 
大 样本 资料 ， 这 样 所 得 的 判别 消 数 较 稳 定 、 可 靠 。 

于 是 有 线性 判别 靖 数 y = -0.103 5x, +0. 224 8x,， 其 图 形 见 图 6 -2 中 的 直线 ， 每 
组 分 别 有 1 个 点 在 线 的 男 一 侧 。 


表 6 -3 线性 判别 的 判别 效果 


判别 
2 类 | 1 | 

ә J i | i 
EN RON EON EN 


上 面 介绍 了 Fisher 两 类 判别 ， 实 际 上 ， 当 各 类 的 协 方差 阵 相 同时 ，Fisher 的 多 类 判别 
和 多 类 距离 判别 有 相同 的 线性 判别 式 ， 所 以 此 处 从 略 ， 参 照 本章 第 3 节 。 


6.3 距离 判别 法 


距离 判别 的 基本 思想 是 : 根据 已 知 分 类 的 数据 ， 分 别 计算 各 类 的 重心 ， 即 各 组 的 均 
值 。 距 离 判 别 的 准则 是 : 对 任 给 的 一 次 观测 ， 若 它 与 第 i 类 的 重心 距离 最 近 ， 就 认为 它 
来 自 第 ;类 。 

6.3.1 两 总 体 距 离 判别 


设 有 两 个 总 体 G, 、C2 ， 从 第 一 个 总 体 中 抽取 n, 个 样品 ， 从 第 二 个 总 体 中 抽取 n, 个 
样品 ， 对 每 个 样品 测量 р 个 指标 。 取 任 一 个 样品 实测 指标 为 = (x ,x ,… ,x,)'。 分 别 计 
算 样品 到 总 体 6, C, 的 距离 D(X,G, ) 和 D(X,G,)， 按 距离 最 近 准 则 判别 归 类 ， 即 
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当 D(X,G,) <D(X,G,), M|) Xe G, , 
>4 D(X,G,) > D(X,G,), WD X e G,, 
当 D(X,G,) =D(X,G,), 待 判 。 
RAMA, Жш, д», X. У, 分别 为 总 体 G... G, 的 均值 向 量 和 协 方差 阵 。 通 常 采 
用 马 氏 距离 进行 判别 ， 即 : 
D(X,G,) -(X-u)' (X) (X-u),iz1,2 
(1) = У, = 也 ;= 工时 ， 设 
W(X) =D(X,G,) -D(X,G,) 
=(Х-д,)' E(X -m)-(X-m,)V' E(X -u ) 
=2X' X (р-ро) - (ш +m) X (ш-р) 
=2[X -y (m +m) "У Qu -m) 
4 д = (щш +m )/2,0) W(X) =b, +bix 为 线性 判别 函数 (省略 常 数 2)， 
其 中 , bo = -1⁄2( +p)' ~ (ш-р), 
b = X (m -jz) (ЖИРЕ а' = (Х, -X,)'S;!) 
于 是 可 根据 WX) ЕЙ P ВОВЕ 85285311 : 
ҖЩ W(X) >0, WJ Xe G,, 
M W(X) «0, MXeG,, 
当 W(X) 20, FH. 
(2) MX,*X,Hl 
仍然 用 W(X) =D(X,G,) -D(X,G,) 
=(Х-ш„)'(Ў,) (X -m) -(X -m )' (£)? (X-u) 
ERAIK, PUCE X КРА, WILA ЕАК РАЈЕ РА. Z, 
可 将 两 个 总 体 的 讨论 推广 到 多 个 总 体 。 
【 例 6 -2】 某 地 市 场 上 销售 的 电视 机 有 多 种 牌子 ， 该 地 某 商场 从 市 场 上 随机 抽取 了 
20 种 牌子 的 电视 机 进行 调查 ， 其 中 13 种 畅销 ，7 种 滞销 。 按 电视 机 的 质量 评分 、 功 能 评 
分 和 销售 价格 (单位: 百 元 ) 收集 资料 ( 见 表 6 -4) ， 其 中 销售 状态 1 中 : “1” 表 示 畅 
销 ,“2” 表 示 滞 销 。 试 根据 该 资料 建立 判别 函数 ， 并 根据 判别 准则 进行 回 判 。 假 设 有 一 
新 厂商 来 推销 其 产品 ， 其 产品 的 质量 评分 为 8.0， 功 能 评分 为 7.5， 销 售 价 格 为 65 Boc, 
问 该 三 产品 的 销售 前 景 如 何 ? 


X 6-4 20 种 牌子 电视 机 的 销售 情况 
编号 。 质量 评分 Q 功能 评分 C 销售 价格 P 销售 状态 1 G6 销售 状态 2" C 
1 8.3 4.0 29 l 1 
2 9. 5 7.0 68 l l 
3 8.0 5.0 39 l l 
4 7.4 7.0 50 1 1 
5 8.8 6.5 55 l l 
6 9.0 7.5 58 1 2 


138. @# -多 元 统计 分 析 及 语言 寻 要 


( 续 上 表 ) 

编号 质量 评分 Q 
7 7.0 
8 9.2 
9 8.0 
10 7.6 
11 52 
12 6.4 
13 7.3 
14 6.0 
15 6.4 
16 6.8 
17 5.2 
18 5.8 
19 5.5 
20 6.0 


* 销售 状态 2 的 含义 见 例 6 -3, 


功能 评分 C 


6.0 
8.0 
7.0 
9.0 
8.5 
7.0 
5.0 
2.0 
4.0 
5.0 
3.0 
3. 5 
4.0 
4. 5 


销售 价格 P 
75 


销售 状态 1 G 


V PN 2 2 МЮ (G9 Nom к w ке ке ка кш 


销售 状态 2” G 


шо G9 ш UG G G9 х ә мю t2 мю hb м м юы 


[IZ lll ..............................-.Á...-.Á...-....-.Á......-.Á..........-..............-....-Á..6-Á..-.-...-..6-Á...--...-..--..--..-=... 


i» 46.2 = read. table( " clipboard" , header = T) 
t анасһ( 26.2) ЖЕТ 
i> plot(Q,C) ;text(Q,C,G,adj = -0.8) 


P 
20 30 40 50 60 70 80 90 


[LLL = 5ш LLL LLL ж ШЕ 5 Фф Á... Á... ш % ше СОЭ D "ртт тот тт отот тт от отт тот отот "отч от оч шт тош чш шот шш тош == жо .-á.. - шош шш ы ш шш ш ш шш ш ш шшш ш ш шш шош 
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i> plot( C, P) itext(C,P,C,adj= -0.8) 
! 


P 
20 30 40 50 60 70 80 90 


® тот ттт ттт т т I тт т т те т т тш ш от тт т т тт ш ч тш = от шш ш от тт = т шш ш ош эш ш ош lI LL II шыш ш ш ш ш шш ш ш шы ш ш шш ш ш шш ш ош шш ш ш шш ш ш шы ш ш шы ж ш l a ЧӨ LI 


上 述 图 分 别 是 按 “ 质 量 评分 ”、“ 功 能 评分 ”和 “销售 价格 ”的 分 类 图 ， 从 中 可 以 看 
到 原始 数据 中 每 类 样品 在 样本 空间 的 分 布 情况 。 下 面 我 们 首先 用 距离 判别 法 进行 判别 。 
ERER HTA, RA 1 个 样品 数据 (第 16 DU) 判 错 。 


Puts me ® шь = ш © жоє ® ы шш в ш шь & ы шш ж ж шш ————————Ásii 


i> discrim. dist( cbind( Q,C,P) ,as. factor( G) ) 
| G рі D.2  newG 

3.85078 67. 45440 
2.84770 44. 62600 
1.58971 39.84665 
2.81118 45. 15294 
0.93770 43.92183 
2.81655 71.64252 
6.01749 89.58756 
2.94644 45. 06306 
0.10415 17.90919 
2.83209 54. 82120 
2.51601 54. 33006 
4.56082 20. 49558 
2.16937 6. 30248 
15. 56944 4. 64955 
6. 59958 1. 10208 
3.12911 3. 39681 
15.28160 3. 50622 
10. 18927 0. 09427 
10. 12341 1. 49170 
6. 60158 3. 75937 


=<... ..................1.. = ......Á...Á..Á...Á.Á..á...-...-...-Á.á.-. тт от оч ошто тот тєш тош чш тош == = от == єт ош єт =ош шш ы ош жшт ав =M 


ою 00 — OQ мл A LN к 


— p 
м — 


нна а кя 
ON Q + 


K. = = 5 ш == шш == шш шош тт тот -.-.-...-................-............-......... ш шш ш ш шш ш ш шш ш ш шш = ш -- т - т = тт т т ттт т тт т т ттт 
— 


4 

ә 
N åN N NNN N ll yeo, y —- ж ы ы ы 0 шы = = 
ом N N N к N МЮ oM к. ка =— =— =— =— окш кш — шыш ока кы 
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La ee ee | 


[[1]] 

[,1] 
[1,] 0.5537 
[2,] 21.9250 


[[2]] 


eA ——————————————M————————————— 


根据 我 们 建立 的 判别 准则 ， 带 人 预测 数据 ， 判 断 新 样品 属于 第 1 类 ， 即 该 产品 应 该 
比较 畅销 。 

如 果 假 定 协 方差 矩阵 相等 ， 就 可 进行 线性 判别 分 析 ， 下 面 使 用 线性 判别 函数 进行 
判别 。 


DE 2 Ж 2 22 ОС ЎЖДС О З РЕС ОЈКЈД2 2 2 22 ЯФ 2 2 2 ЎЈАЕЕ ЕСЕ 6СЕЗЕЮСГАРҒЕЗЕЕ2Е322ЄЕЭ22ЕҸӘ2Е2 2275693972627 ҒГҒІҮТГГГРГГГҒЕРУГ РИ 


‚ > library( MASS) Е 
i> (ld = 14 (6-0 +С+Р)) | 
| Сай. lda(G ~ Q + C + P) 

Prior probabilities of groups: 


x : 
l 1 2 ' 
|! 0.65 0.35 : 
|! Group means; ' 
' Q C P | 
! 17.977 6.731 61.54 . 
! 25.957 3.714 34.00 | 
Coefficients of linear discriminants ; | 
LD1 : 
i Q -0.82211 
| C -0.64614 x 
i P 0.01495 | 
ps W. x = predict ( 19) $x | 
cbind( G, W = W. x,newG = ifelse( W. x «0,1,2)) : 
| G W newG ' 
: 1 1 -0.1070 1 | 
12 р 2.4487 1 
! 3 1 -0.3569 1 : 
! 4 | -0.9914 1 : 
| 5 1 -1745 1 : 
' 6 1 -2.510 1 i 
| 7 1 0354 2 | 
i 8 1 -2.6388 1 | 
! 9 |] -1.2305 1 | 


Sm 


和 rr 


ГТО 1 -1.8499 i| 
| 1» 1 -12579 1 
121-0124 1 | 
: 13 1 0.3532 2 ' 
| 14 2 2.9416 2 : 
: 15 2 1.6046 2 
i 16 2 0.7642 2 i 
| 17 2 3.087 2 | 
:18 2 2316 2 | 
| 19 2 2269) 2 | 
' 20 2 1.5655 2 


本 


按 线性 函数 进行 判别 ， 却 有 两 个 样品 数据 (第 7 例 、13 D) 判 错 。 说 明 我 们 对 协 方 
差 矩 阵 的 相等 假设 值得 商 榨 。 


6.3.2 多 总 体 距离 判别 


(1) 协 方差 矩阵 相同 。 
设 有 上 个 总 体 G, ，G6,，…，G;， 它 们 的 均值 分 别 为 pi, hs s J:， 有 相同 的 协 方 
差 矩阵 之 ， 对 任 一 个 样品 实测 指标 X = (xi ,x,,… ,x,)'"， 计 算 其 到 类 i 的 马 氏 距离 : 
D(X,G,) =(X-m;)' L (X -m:) 
=Х'У 'X-2u X 'X+u У, 
=X'x> !X-2(bX +b) 
=X'Z `'X -2Z, 
于 是 得 线性 判别 函数 Z =b + bX,i=1,2,…,k。 
其 中 ，b = -1/2ш,' Y ^u; 为 常数 项 , b; =j' 交 ”为 线性 判别 系数 。 
相应 的 判别 规则 为 : 
M Z, = max (Z;) , 0 X < Ci。 
EU PETS m 可 用 样本 均值 向 量 和 样本 合并 方差 阵 S, 估计 ， 其 中 ， 


У =S, = 


LI L- УА, n =n, +n, +-** +n, 


А,= У(Х,-Х)(Х,-Х)', izM2, sk 

(2) 协 方差 矩阵 不 同 。 

设 有 天 个 总 体 Ci Ca , GL, 它们 的 均值 分 别 为 и, MM 1n 且 它 们 的 协 方差 矩阵 
>, 不 全 相同 ， 对 任 一 个 样品 实测 指标 = (x ,x,,… ,x,)'， 计 算 其 到 类 i 的 马 氏 距离 为 D 
(Х,С,))=(Х-д)'У; (X-yu),iz1,2,*-,k, BF 三; 不同， 所 以 从 该 式 推 不 出 线性 
判别 函数 ， 其 本 身 是 一 个 二 次 函数 。 

相应 的 判别 规则 为 : 

M D(X,C;) = min D(X,G;), Wl X < С, 

“ш, 和 ,本 ,,…, 二 :未 知 时 ， 样 本 均值 向 量 的 估计 同 前 。 

【 例 6-3】( 续 例 6 -2) 在 例 6 -2 抽取 的 20 种 牌子 的 13 种 畅销 电视 机 中 ， 实 际 只 
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有 5 种 真正 畅销 ，8 种 是 平 销 ， 另 外 7 种 滞销 。 按 电视 机 的 质量 评分 、 功 能 评分 和 销售 价 
格 〈 单 位 : йл) 收集 资料 ( 见 表 6 -4) ， 其 销售 状态 2 分 三 种 : “1 ”表示 畅销 、 “2” 
表示 Mh “3” 表示 din 555 md еи 

А dó. 3 = read. table( " а ,header = D i 

|» atach(d6.3) # 和 解析 变量 ' 

> phot( Q, C) ;text(Q, C, G,adj = –0. B ,ceez «0. 75) 


P 
20 30 40 50 60 70 80 90 


> plot( C, P) ;text( C, P, G, adj = –0. 8,cex -0. 75) 


90 


P 
20 30 40 50 60 70 80 


De III III т т тт т т отт от т отт чш т отт т = тш ш ш ID ILI LLL LLLI шш © © шшш ш 1... 


上 述 图 分 别 是 按 “ 质 量 评分 、 ”功能 评分 ”和 “销售 价格 ”的 分 组 图 ， 从 中 可 以 看 
出 原始 数据 中 每 类 样品 在 样本 空间 的 分 布 情况 。 


1. 距离 判别 〈 异 方差 ) 


!» D = discrim. dist( cbind(Q,C,P) ,as. factor( G) ) 


+ 
' 
+ 
* 
' 
4 
' 
! 
' 
' 
I 
' 
' 
1 
' 
* 
I 
' 
LI 
I 
I 
' 
' 
I 
LI 
' 
1 
. 
' 
, 
. 
I 
' 
' 
I 
' 
' 
I 
Г] 
' 
1 
a 
' 
+ 
+ 
' 
+ 
+ 
I 
' 
' 
I 
+ 
' 
I 
' 


= = ж = а шш т т т= = от отт тот т= т єт A 


O 00 м Сс мл mi 一 


м жо о кы ке — 
+ Q N =. © 


15 


G 


чы U UJ (Q шы U OQ МЮ (МЮ 52 МЮ 2 P 2 N e — ке — „ч 


D1 

2. 524 
2. 648 
2. 351 
2. 835 
1. 642 
36. 094 
524. 484 
29. 617 
55. 717 
159. 308 
220. 973 
51. 324 
108. 303 
271. 547 
225. 151 
166. 717 
420. 878 
273. 863 
272. 231 


i> cbind(G,D -1(DL [11]) DC (211) 


D2 
9. 1098 
4. 0186 
4. 5484 
3. 0750 
2. 6004 
3. 3813 
3. 5490 
2. 7431 
0. 1739 
2. 2099 
1. 7892 
4. 1753 
2. 9783 
16. 4806 
6. 5934 
3. 1780 
13. 4992 


D3 
67. 45440 
44. 62600 
39. 84665 
45. 15294 
43. 92183 
71. 64252 
89. 58756 
45. 06306 
17. 90919 
54. 82120 
54. 33006 
20. 49558 
6. 30248 
4. 64955 
1. 10208 
3. 39681 
3. 50622 
0. 09427 
1. 49170 
3. 75937 
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i 


Gb G G U9 мю G у мю мю NS мю 2 2 мю мю e e — — = 


ЕЖ 5 — 4 4 & Ыы ы << << << Ф ® Ф% ФЕ — LLL Фф ж чш че че чш чк Ф ILL e Ў чоч тт от от чт тот тт от ототт чоч P от отт отот тт от т отт тот тт от P тот тт тот тит тот тт тот тт "ш О + -..-... 


间 т=т=т=т тт т от чт т т тт т т отш тот Өш тош = тот тт т от тт т точ т от == тот чш тот I ILLI тот == тот тш тот тт т от тш тот чт тот шт т от чт тот тш тош эт = ош ын жов ты ж = шв ш ® жы ш ш шш @ ш шы ш ш шшш ш | шш ш ж шш ш ш ү 


D = discrim. dist( cbind( Q, C,P) ,as. factor( С) ,var. equal = T) 


cbind( G,D 2 t( DL [1]]) ,t(D[ [2]])) 


ою бо м OQ ^ Ь UU гш 一 


G 


юм мю t N МЮ 02 МЮ PN w m s л w 


1. 4454 
2. 2664 
0.2181 
4. 2187 
0. 1388 
1. 2052 
11. 5119 
3. 9971 
1.9114 


7. 5376 
3. 8156 
3. 8472 
4. 9982 
2. 7727 
4. 1633 
5. 0382 
2. 1603 
0. 1751 


5. 60401 
8. 03923 
3. 33168 
6. 77364 
5. 25313 
7. 96098 
7. 06315 
8. 04432 
3. 36827 
7. 96254 


newG 


UJ N N N N NN e — w w w = 


Ò- Å- -l оь M M Á. р тт т т ттт ттт т т тт т mmmH 


ма @ rnunana 


+ = == == тч т тт=т ттт тот отт тот тт отот тт от тотт отот == от өөр чт = бт = ож чш ж ош шш ш о шы шщ ш шш ш Ш шы ш 30 ® ш шш в ш шш в в шш ж ош тт шот шт тот тт т от тт тот тт тот Li Is чт точ тш точ чт т = тт тот "ш = т отт ч + тш тот єт тот 


Ll TE тош == т ош чш тот чт Ө = чш lu отт = = == ж ош шш ш ош шш ш ош шш ш ош шш ш ож шш ш ш шш ш ш шш ш ош шш ш ош шш ш ш шы ш ш шыш ш ш ш ш ш шш ж ш шш ш ш шш &® ш шш ® Ы LIGLÁGL.Gui жа в ж шш DSL ж жы ш а шш Dal т шш LL GL ш = ® шш LALG аъ а= 


!» (ld=lda(G~Q+C+P)) 


tm 


0. 23425 
0. 58787 
0. 38555 
0. 01686 
0. 54399 
0. 79815 


„+++ +544 5+ 4 45 ш 5 4ш 54 ш 4 5 шш 4 4ш 44 шш 44 ш 4 5 шш 4 4 шш I т от тт ч т отт точ тт ч т отт то тт чө т тт т тт ттт т тт оч т т т = те ө т 


Call; lda(G ~ Q + C + P) 


Prior probabilities of groups: 
2 


1 


0.25 0.40 0.35 


Group means: 


l 


Q 


8.400 5.900 48.20 
2 7.713 7.250 69.88 
3 5.957 3.714 34.00 


P 


Coefficients of linear discriminants : 


LD1 LD2 
Q -0.81173 0.88406 
C -0.63091 0.20135 
P 0.01579 -0.08776 
Proportion of trace; 
LDI 


0.7403 0. 2597 
i> Z = predict(ld) 
!» newG =Z $class 
:> ebind( G,Z $x ,newG) 


ою бсо м OQ tn о мо н 


10 


LD1 


- 0. 1410 
- 2. 3918 
一 0. 3704 
-0. 9715 
- 1. 7135 
- 2. 4594 


0. 3790 


-2. 5581 


LD2 

2. 582952 
0. 825366 
1. 641515 
0. 548448 
1. 246682 
1. 361571 
– 2. 200432 
— 0. 467096 
– 0. 412972 
- 2. 382302 
- 2. 485575 


newG 


м N NN N N M M M M = =ч 


天 = 
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) И 


me" .Á........ <... .Á..... шш ш ш шш ш = шоч ттш - ш чш от тот тт от от отт тот тт от т отт т т тт т от тт тот тт от оч тт тот тт т от тт тош чет е о еш т "е чеш ч = ттт = ок еш т то отш тою == = Ñ... P APP | 


Ls. 73 - 0. 1124 -0.598884 2 
13 2 0. 3399 0.232863 3 
| 44 3 2. 8457 0.936723 3 
|; 15 3 1. 5592 0.025668 3 
| 16 3 0. 7458 -0.209168 3 
AN 3 3. 0063 -0.358990 3 
| 48 3 2. 2512 0.008852 3 
19 3 2. 2108 -0.331207 3 
20 3 1. 5211 0.035985 3 
i > tab = table( G,newG) 
newG 
€" NE S m 
i 1500 
' 21 6 1 
: 300 7 
i» diag( prop. table( tab, 1) ) 

1 3 3 


1.00 0.75 1.00 


> sum( diag( prop. table( tab) ) ) 
[1] 0.9 


LD2 


So 


只 有 两 个 样品 判 错 ， 判 别 符合 率 : (5 +6 +7)/20 = 90.00% ， 判 别 效果 还 是 可 以 的 。 
4, 二 次 判别 (AFŽ) 
当 协 方差 阵 不 相同 时 ， 距 离 判 别 消 数 为 非 线 性 形式 ， 一 般 为 二 次 函数 ,方程 较为 复 
杂 ， 结 果 未 显示 。 
二 次 判别 函数 qda( ) 的 用 法 


qda( formula, data, ---) 


formula 为 一 个 形 如 groups ~ xl + x2 + … 的 公式 框架 
data 为 数据 框 


146, e- PED EE 


划一 一 一 = 一 一 一 


,> (qdzqda(G -Q +C +P) ) 

i Call; 

qda(G ~ Q + C + P) 

Prior probabilities of groups: 
1 2 3 


Q C P 
1 8.400 5.900 48.20 
2 7.713 7.250 69. 88 
3 5.957 3.714 34.00 
i> Z = predict( qd) 
| > newG = Z $class 
> 


: [1] 0. 95 


beside 5—5 4454-4949 4 44 444 4 4—4 a чож ее оч чат "Р -MMMM 


cbind( С , newG ) . 
| G newG 
С d : 
К] + 1 | 
i [3,] 1 1 | 
б DL X. 4 : 
EF ҮТ E 31 | 
t T 2. 2 | 
Lo) Жж 3 : 
i [8S] 2 2 i 
: [9] 2 2 : 
| D 4 3 | 
' [14] 2 2 
| HS D x 3 : 
i [1,) 2. 3 | 
Lo] 4 d 
: Li 3 3 
í [16,] 3 3 | 
! [17,] 3 3 ) 
: [18,] 3 3 
Lopes 3 3 
: [2] 3 3 | | 
i> (tab = table(G,newG) ) i 
newG 
| G 1245 
| 1500 
гартал i 
! 3007 
| > sum( diag( prop. table( tab) ) ) | 
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判别 符合 率 ; (5 +7 +7) /20 = 95.0% 
由 判别 符合 率 知 ， 应 用 距离 判别 (二 次 判别 ) 进行 判别 的 效果 好 于 一 次 判别 的 效果 。 


6.4  Bayes 判别 法 


6.4.1  Bayes 判别 准则 


上 面 讲 的 几 种 判别 分 析 方 法 计算 简单 ， 结 论 明 确 ， 比 较 实 用 。 但 也 存在 两 个 缺点 : 
一 是 判别 方法 与 总 体 各 自 出现 的 概率 大 小 完全 无 关 ; 二 是 判别 方法 与 错 判 后 造成 的 损失 
无 关 ， 这 是 不 尽 合理 的 。Bayes 判别 则 是 考虑 了 这 两 个 因素 而 提出 的 一 种 判别 方法 。 
Bayes 判别 对 多 个 总 体 的 判别 考虑 的 不 只 是 建立 判别 式 ， 还 要 计算 新 样品 属于 各 总 体 
的 条 件 概率 p(j/x) ,j =1,2,…,k。 比 较 这 个 概率 的 大 小 ， 然 后 将 新 样品 判 归 为 来 自 概 
率 最 大 的 总 体 。Bayes 判别 准则 是 以 个 体 归属 于 某 类 的 概率 (或 某 类 的 判别 函数 值 ) 最 
大 或 错 判 总 平均 损失 最 小 为 标准 的 。 
RA k MAIE G, ,G6,,…,G， 它 们 的 先 验 概率 (prior probabilities) 分 别 为 gq, ,qz ,…， 
dko # МЖЖ ЖЛЕ ARA р, (x) , pi(x) 9. "75и p (х) ‚ Х 为 一 个 观测 样品 ， 该 样品 来 
自 第 大 个 总 体 的 后 验 概 率 为 《Bayes AX): 
Бл. 
当 p(J/x) = maxp(j/x) ЕТ, 判 x Ж#Н Ж у 总 体 。 
有 时 还 可 以 使 用 错 判 损失 最 小 的 概念 作 判 别 函 数 ， 这 时 把 将 x 错 判 为 第 j 总 体 的 平均 
损失 定义 为 : 
Ев) = X КТЕ) 
{е {-1Ч{р{( x) 
其 中 ，L(g/i) 称 为 损失 肾 数 ， 它 表示 将 本 来 是 第 j 总 体 的 样品 错 判 为 第 g 总 体 的 损 
失 。 显 然 ， 上 式 是 对 损失 函数 依 概率 加 权 平 均 或 称 为 错 判 的 平均 损失 。 当 g =j 时 ， 有 
L(g/j) =0; "4 gj В, A L(g/j) >0。 建 立 判别 准 则 为 : 
34 E(g/x) = min E(/x) ў, Ж x 来 自 第 z 总 体 。 
理论 上 讲 ， 考 虑 损失 函数 更 为 合理 ， 但 实际 中 L(g/i) 并 不 容易 确定 ， 所 以 通常 假定 
各 种 错 判 的 损失 皆 相 同 ， 即 
~ [9 #=] 
L(g/j) -l m 
FTE, FR g 使 后 验 概率 最 大 和 使 错 判 的 平均 损失 最 小 是 等 价 的 ， 即 


p(g/x)—“maxesE(g/x)—“ min 
6.4.2 正 态 总 体 的 Bayes 判别 


1. Bayes 判别 函数 的 求解 过 程 
Wt k^ E С, ,G,,… ,Gi 均 服 从 了 维 正 态 分 布 ， 各 总 体 的 密度 函数 分 别 为 : 
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р(х) =(2w) "| Ў, 1 "V exp[ -G-a)'E;'G-u)] 


式 中 , u 和 X; 分 别 是 第 /个 总 体 的 均值 向 量 和 协 方差 矩阵 。 为 了 进行 判别 ， 需 在 
фр(х) 中 找 出 最 大 者 ， 为 了 使 判别 函数 具有 简单 的 形式 ， 取 对 数 得 : 
In[ q;p;(x) ] = Ing, - inm)! - jin | >! -Fr Er x - иш +x' Ei pW 
略 去 等 式 右边 与 j 无 关 的 项 ， 记 为 : 
Z(/x) =lng -二 nl Ej! - 14 E; s- Tu py ta Ej p 
显然 ， 该 函数 是 一 个 二 次 函数 ， 其 Bayes 问题 化 为 : 
Z(j/x) — max 
应 用 Bayes 准则 得 ， 当 Z(j/x) = maxZ(j/x) BE, Hl] x £ R Ж j ИЖ. 
2. 协 方差 阵 相等 情形 


эм k 个 总 体 的 协 方差 阵 相 同 , 即 2.1 = 25 не m 24 = by 时 ,Z(j/Ax) 中， - 51% | 2; | 
和 - X; х 与] 无关， 求 最 大 值 时 可 以 去 掉 ， 这 时 的 判别 函数 记 为 : 


Y(j/x) = 19; - u, д, + Уи, 
ра 38: — TREKKA, Е 1], ZAARA ri HJ 2c E23] ЭЛ) PR CH 482 — 1-76 
数 lnqg,， 此 时 Bayes 问题 化 为 : 
Foe nix 
应 用 Bayes 准则 得 ， 当 Y(j/x) = maxY(/x) 时 ， 判 x 来 自 第 j 总体。 
上 式 判 别 函 数 也 可 写成 多 项 式 形 式 : 
Y(J/x) = Ing; + co; + Усух, 
其中 ,cy = Sa'm i21,2, 7p, E = (оа), »(05),,, 
rg - У NL - сы 
至 于 先 验 概率 9j， 如 果 没 有 更 好 的 办 法 确定 ， 可 用 样本 频率 п/п KRE, HH, п, 
是 第 j 个 分 类 的 数目 ， 且 n +n,+- +n =n, ЖИ q, =q, =… = д, =k, ЕЈ 
Bayes 判别 等 价 于 Fisher 判别 ， 只 是 相差 一 个 常数 而 已 。 
当 对 大 个 分 类 样本 ， 若 各 类 总 体 都 服从 多 元 正 态 分 布 ， 并 且 各 类 总 体 的 协 方差 矩阵 
相同 ， 上 式 也 可 写成 显 式 的 线性 判别 函数 : 


Y. = 1п9, +c, +C, X, +C, X, 十 … +C, X 


Y, = 109, + co tcx, +С) + +С х 


Yi) = Ing, + cy, + cx, 十 CokxX2 + °° 十 CpkXpP 


若 有 某 观 察 对 象 ， 把 实际 测 得 的 各 指标 x 值 代入 上 式 ， 可 求 得 各 类 的 了 值 ， 哪 个 了 
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值 最 大 ， 就 判断 其 归属 于 哪 一 类 。 

3. 后 验 概率 的 计算 | 

作 判 别 分 类 时 ， 主 要 是 根据 判别 式 y (7x) 的 大 小 来 分 类 的 ， 但 它 并 不 是 后 验 概 率 
р(Ј/х), 我 们 推导 y Cx) М  In[ qp (x)] 省 略 了 与 j 无 关 的 项 得 到 的 ， 即 
In[ qjp,(x)] =y(j/x) +6(x)。 这 里 ，6(x) 是 与 j 无 关 的 部 分 ， 于 是 有 : 

s) qip (z) _ exp| yG/x) *6(x) ] 

Eqp(x) Xexp[yG/x) *8(x)] 
expl y (j/x) ]expl 6( x) ] - exp[ yCj/x) ] 
Eexp[y( i/x) ]exp[5(x) ] Eexp[y( i/x) | 

由 于 上 式 使 y 最 大 的 g, E p(g/x) 必 为 最 大 ， 因 此 我 们 只 需 把 样品 代入 判别 式 中 进 
行 判别 即 可 。 

【 例 6 -4】( 续 例 6 -3) 对 例 6 -3 数据 应 用 Bayes 判别 法 进行 判别 。 

在 进行 Bayes 判别 时 ， 假 定 各 类 协 方差 阵 相 同 ， 此 时 判别 函数 为 线性 函数 。 


(1) 先 验 概率 相等 : 取 q =q = 9 = 1/3， 此 时 判别 函数 等 价 于 Fisher 线性 判别 
РАЖ 


т =т=т тт тт т ттт тт т= т т == т ш ш= ъ т отт ж т шт ш ош чш ж ш шш ш ш шш ш ш шш ® = шш ш ш шь ы ш шы ш ы шш ® ож жы ш ш шы ш ш шы ш ш шш ш ш шш ш ы шш ш ш шыш ш ш шш ш ш шш ш ш шш ш ш шш ш ш шш ББ ШШ с о suu 


> 46.3 = read. table( " clipboard" , header = T) 
|» attach(d6.3) # 解 析 变量 
:> (Mi =lda(G ~ Q +C+P,prior=c(1,1,1)/3)) 
Call: lda(G ~ Q + C + P, prior = e(1, 1, 1)/3) 
Prior probabilities of groups: 
l 2 3 
0.3333 0.3333 0.3333 
Coefficients of linear discriminants : : 
LDI LD2 
— 0. 92307 0. 76708 i 
-0.65223 0.11482 ! 
0.02743  —0. 08484 : 
Proportion of trace: : 
LD1 LD2 - 
0.7259 0.2741 


ho 


(2) 先 验 概率 不 相等 : Ж д, =5/20，g, 28/20, q, =7/20， 下 面 为 先 验 概率 不 相等 
时 的 Bayes 判别 函数 的 系数 。 
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:> (142 =lda(G-Q +C +Р,рпог = с(5 ,8,7)/20)) 
; Call; lda(G ~ Q + C + P,prior = c(5, 8, 7)/20) 
Prior probabilities of groups : 
1 2 3 
0.25 0.40 0.35 


Coefficients of linear discriminants : 


1р1 LD2 

Q -0.81173 0.88406 

C -0.63091 0.20135 

P 0.01579 -0.08776 

Proportion of trace: 

LDI 1р2 
人 

下 面 是 两 种 结果 作 上 比较: 
|> Zizprdit(ld) — 1 Í > Z2 = predict ( Ф) Т | 
> cbind( G ,Z1 $x ,Z1 $class) ' > cbind( G,Z2 $x ,Z2 $class) 
' G LD1 LD2 ' G LD1 LD2 
1 1 -0.40839 — 2.37788 I : 1 1 -0.1410 2.582952 1 
: 2 1 -2.40289 0.33403 1 ; 2 1 -23918 0.825366 1 
: 3 1 -0.50937 1.41417 |: 3 1 -0374 1.641515 1 
|: 4 1 -0.95822 0.25030 I : 4 1 -09715 0.548448 1 
5 1  -17875 0.84260 1 | 5 1  -17135 1.246682 1 
: 6 2 -2.54179 0.85631 |: 62 -24594 1.361571 1 
‚ 7 2 0.74904 -2.29239 2 3: 72 0.3790 –2. 200432 2 
: 8 2 -23944 -0.96906 2 i 8 2 -25581  -0.467096 2 
! 9 2 -1.04572 -0.73175 2 : 9 2 -119%00  -0.412972 2 
| 10 2 -1.34999 -2.76030 2 10 2 -1.7639 -2.382302 2 
: 112 -0.76438 -2.78518 2 : 10A  -L1869 -2.485575 2 
: 122 0.04715 -0.77130 2 i 122 -0.1124 -0.598884 2 
: 13 2 — 0.38367 0.11363 3 r 342 0.3399 0. 232863 3 
: 14 3 2. 77223 1. 14753 з ; мз 2.8457 0.936723 3 
' 15 3 1.61977 0.07201 3 : 153 1.5592 0.025668 3 
' 16 3 0.84521  - 0.26991 3 t 163 0.7458 -0.209168 3 
: 17 3 3.10536 -0.11489 3 : 17 3 3.0063  -0.358990 3 
: 18 3 2.30770 0. 14824 з + 18 3 2.2512 0. 008852 3 
: 19 3 2.31337  -0.19415 з i юз 2.2108 -0. 331207 3 
: 20 3 1.58059 0.07712 з i 203 1. 5211 0. 035985 3 
‚ >table( G ,Z1 $class) ; > table( G ,Z2 $class) 
С 1 2 3 | G 1 3 3 
i 1500 i| 1500 
WEIT ' 2161 
300 7 : 3 0 0 7 : 


由 判别 符合 率 知 ， 应 用 Bayes 判别 函数 进行 判别 的 效果 还 是 不 错 的 。 


Pr 


!» Zl$post # 后 验 概率 


1 2 3 | 
i 1 9.826e-01 0.0055570  1.186e-02 | 
| 2  7.942e-01 0.2056795 8. 863е -05 : 
| 3 9.372e-01 0.0431044 1.969е -02 | 
: 4 — 6537e-01 0.337146 — 9. 147e -03 | 
: 5 9.052е-01 0.0943611 4. 798е –04 | 
i 6 9.278е-01 0.072127] 4. 054е -05 : 
! 7 3.336e -03 0. 8632226 1. 334е -01 | 
: 8 — 1775e-01 0.8224630 6. 760е -05 : 
i 9 1.847е-01 0.8105204 4. 783е -03 | 
: 10 2.847e-03 0.9969782 — 1.751e -04 : 
: 11  2.196e-03 0.9968539 9. 497е -04 | 
i 12  1.112e-01 0.7798203 1. 090е -01 : 
: 13 2.918е-01 0.3250330 3. 832е -01 | 
| 14  7.594e-04 0.0001978 — 9.990e - 01 8 
! 15  1210e-02 0.0227472  9.652e-01 | 
: 16 7.941е-02 0.2426609  6.779e -01 : 
i 17 7.945e-05 0.0003790 9.995e-01 
! 18  1.392e-03 0.0028100  9.958e-01 | 
: 19 9.960e-04 0.0042953 9.947e-01 : 
‚ 20 1.377e-02 0.0252494 9. 610е - 01 | 
后 验 概率 给 出 了 样品 落 在 各 个 类 的 概率 大 小 ， 这 也 是 Bayes 判别 区 别 于 Fisher 判别 的 
主要 特点 。 


4. 判别 分 析 小 结 

(1) 判别 分 析 方 法 首先 根据 已 知 所 属 组 的 样本 给 出 判别 函数 ， 并 制定 判别 规则 ， 然 
后 再 判断 每 一 个 新 样品 应 属于 哪 一 组 。 常 用 的 判别 方法 有 距离 判别 法 、Bayes 判别 法 、 典 
型 判别 法 等 。 

(2) 判别 分 析 中 的 各 种 误 判 的 后 果 人 允许 看 作 是 相同 的 ， 而 在 假设 检验 中 ， 犯 两 类 错 
误 的 后 果 一 般 是 不 同 的 ， 通 常 将 犯 第 一 类 错误 的 后 果 看 得 更 严重 些 。 

(3) 距离 判别 和 Fisher 判别 对 判别 变量 的 分 布 类 型 并 无 要 求 ， 两 者 只 要 求 各 类 总 体 
的 二 阶 矩 人 存在， 而 Bayes 判别 则 要 求知 道 判别 变量 的 分 布 类 型 。 因 此 ， 距 离 判 别 和 Fisher 
判别 比 Bayes 判别 简单 一 些 。 

(4) 当 仅 有 两 个 总 体 时 ， 若 它们 的 协 方 差 矩阵 相同 ， 则 距离 判别 和 Fisher 判别 等 价 。 
当 判 别 变量 服从 正 态 分 布 时 ， 它 们 还 和 Bayes 判别 等 价 。 而 当 两 类 的 协 方差 矩阵 不 同时 ， 
Fisher 判别 是 用 它们 的 合并 协 方差 阵 ， 这 时 距离 判别 和 Bayes 判别 是 不 同 的 。 


案例 分 析 : 企业 财务 状况 的 判别 分 析 及 R 操作 


对 21 个 破产 的 企业 收集 它们 在 破产 前 两 年 的 财务 数据 ， 对 25 个 财务 良好 的 企业 也 
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收集 同一 时 期 的 数据 。 数 据 涉及 四 个 变量 ，CF_TD (现金 流量 /总 债务 ) NI TA QR 
收入 /总 资产 ) CA. CL (流动 资产 /流动 债务 ) СА_ NS (流动 资产 / 净 销 售 额 ) ， 一 个 
分 组 变量 : 企业 现状 (1: 非 破产 企业 ，2: 破产 企业 ) 。 数 据 见 下 图 。 


一 、 数 据 管 理 


1 0.51 0.1 2.49 0. 54 
| 1 0. 08 0. 02 2.01 0. 53 
4| 1 0. 38 0.11 3.27 0. 35 
| 1 0. 19 0. 06 2.25 0.33 
6 1 0.32 0. 07 4. 24 0. 63 
了 1 0.31 0. 06 4.45 0. 69 
Qi 1 0.12 0. 06 2.82 0. 69 
| 1 -0.02 0.02 2. 06 0. 35 
10| 1 0. 22 0. 08 2.38 0.4 
1] 1 0.17 0.07 1.8 0. 52 
1121 1 0. 15 0. 05 2.17 0. 55 
13! 1 -0.1 -0.01 25 0. 58 
141 1 0.14 -0.03 0. 46 0.26 
16) 1 0. 14 0.07 2.61 0. 82 
: 1 0.15 0. 06 2.23 0. 56 
17 i 0.16 0. 06 231 0.2 
B. 1 0.29 0. 06 1. 84 0. 38 
1 l 0.64 0.11 2.33 0. 48 
20 1 -0. 33 -0.09 3.01 0.47 
21| 1 0. 48 0. 09 1.24 0. 18 
221 1 0. 56 0.11 4.29 CET 
235 1 0.2 0. 08 1.99 0.3 
24! 1 0.47 0. 14 292 0.45 
25 1 0.17 0. 04 2.45 06.14 
?6 1 0. 58 0.04 $. 06 0.13 
И! 2 -0. 45 -0. 41 1.09 0. 45 
?8 | 2 -0. 56 -0.31 1.51 0. 16 
9i 2 0.06 0.02 1.01 0.4 
30 2 -0.07 -4. 09 1.45 0. 26 
| 2 -0.1 -0. 09 1.56 0.67 
39 2 -0.14 -0.07 0.71 0. 28 
3$ 2 0. 04 0,01 1.5 0.71 

aT - 

WA › сазе авад cared) onu) самай саве Геом / cuse 7 сөзи RN cuni "E — x 3 


二 、R 语言 操作 
1. ЛЖ 


选中 case6 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case6 = read. table( " clipboard" , 


header = T) 


case6eread.table("*clipboard",headereT! 
pairs(caseé6[,2:5], с01=1:21 
library MASS! 
$— UC 
ldelda(G-Cf TD^NI TA*CA CL*CA NS,datawvcaset):;ld 
Call: 
lda(G ~ CF TD + NI ТА + CA CL + CA NS, data = сазеб) 


Prior probabilities of groups: 
1 2 
0.5435 0.4565 


Coefficients of linear discriminants: 
LD1 

cr TD -0.6292 

NI TA -4.4455 

CA CL -0.8893 

СА N$ 1.1945 

> Фергедіст (141; 


> table(caseé$G,Z$class) #1ўс1азз 4 rm 


H 


Case6$6,newG-Z5class,15post) #25розт Siz ES 
1 2 


‚905609 
‚569237 


0.0943910 
0.4307630 
.980908 0.0190918 
.820809 0.1791912 
.98943€ 0.010564 
.989835 0.0101645 
„747112 0.2528880 
„653080 0.3469196 
„860945 0.139054€ 
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e" s 
4 在 ncode . xls HR M case pA PREHR S 
read.table("clipboard",headereT) 


"pairs (case6[, 2:5], co1«1:2)]| 


libr (MASS) 
# 一 议 判 
ldelda(G-Cf TD*MI TA*CA CL*CA И8,4ата=сазеб);14 


|) 
ble (сазебёб, £$class) Mi$classMMAER 7 
cbind(Gecase6$65,newO-t$class,Z$post) #15роэт BM - 


' 


qda (G~CE TD*WI TA*CA CL*CA Nf,dataecaseé):qd 
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2. Fisher 判别 效果 (等 方差 ,线性 判别 lda) 


新 分 类 
l 2 合计 
] 24 l 25 
2 3 18 21 
4 计 27 19 46 
符合 率 91. 3096 
3. Fisher 判别 效果 ( 异 方差 ， 非 线性 判别 一 一 二 次 判别 qda) 
新 分 类 
原 分 类 i " pem 
1 24 | 25 
2 2 19 21 
т И 26 20 46 
符合 率 93. 5% 


ада (二 次 判别 一 一 非 线 性 判别 ) 的 效果 比 一 次 判别 lda 要 好 。 
上 面 我 们 都 采用 Bayes 方式 ， 即 先 验 概率 使 用 的 是 样本 例 数 计算 的 。 


案例 分 析 题 
从 给 定 的 题目 出 发 ， 按 内 容 提要 、 指 标 选取 、 数 据 搜集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 
1. 根据 各 种 经 济 指标 判断 当前 宏观 经 济 运 行 是 正常 、 过 热 或 是 过 冷 。 
.根据 各 国人 均 的 各 项 经 济 指标 判定 一 个 国家 经 济 发 展 程度 的 所 属 类 型 。 
. 某 行政 系统 工业 行业 市 场 竞 争 力 的 判别 分 析 。 
. 根据 某 种 产品 各 品牌 的 评分 情况 判别 其 销售 趋向 。 
. 运用 判别 分 析 对 各 国人 口 状况 进行 研究 。 
对 我 国 31 个 省 、 市 、 目 治 区 城镇 居民 ， 依 据 八 项 指标 作 判 别 分 析 。 
.判别 分 析 在 我 国 行业 经 济 效益 分 析 中 的 应 用 。 
8. 根据 业绩 良好 企业 和 破产 企业 的 各 项 财务 指标 建立 判别 模型 分 析 企 业 的 未 来 
发 展 。 
9. 对 我 国 31 个 省 、 市 、 自 治 区 2005 年 物价 指数 有 关 数 据 作 判 别 分 析 。. 
10. 试用 logitist 回归 进行 判别 分 析 ， 说 明 它 和 线性 判别 分 析 有 何不 同 ， 并 举例 说 明 。 


-nw м 


思考 练习 题 
一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 
1. 判别 分 析 的 基本 思想 是 什么 ? 


1⁄4. @ 多 元 统计 分 析 及 R 语 言 建 模 


2. 距离 判别 的 基本 思想 是 什么 ? 
3. Fisher 判别 的 基本 思想 是 什么 ? 
4. Bayes 判别 的 基本 思想 是 什么 ? 


3: j7 6 9 
s. жалаш, | iss 7 | ,其 中 ыр A ЕНЕ і "H 
4 7 4 8 
(1) 计算 Fisher 线性 判别 函数 。 
(2) 用 Bayes 法 则 ， 在 相同 先 验 概率 和 相同 代价 下 将 观测 值 x。 = (2,7) 分 类 到 总 
{Ж С, 或 C:。 
6. 一 名 研究 人 员 想 确定 一 种 在 两 个 多 变量 总 体 之 间 进 行 判别 的 方法 。 他 能 获得 足够 多 
的 数据 来 估计 分 别 与 总 体 G, 和 6, 相 联 系 的 密度 阻 数 有 (x) 和 f(x)。 设 c(211) 250 (这 是 
将 G, 中 的 观测 值 指定 到 G, 中 的 代价 ) 及 c(112) =100。 此 外 ,已 知 大 约 有 20% 的 可 能 项 
H (可 以 记录 它们 的 x EB) 属于 С, 
(1) 给 出 将 一 个 新 的 观测 值 分 人 两 个 总 体 之 一 的 最 小 法 则 (一般 形式 )。 
(2) 对 一 个 新 项 目 记 录 的 测量 值 产生 密度 函数 值 f(x) 20.3 40 f(x) =0.5。 根 据 以 
上 信息 ， 将 此 新 项 目 分 到 G, 和 G; 
7. 证 明 : 
-V2(x-u,)'€E (x-g)-*V2(x-u;)'E (x-u) -s-u) X x 
-l/2(u -u)' X Qu +) 
8. ln, =11 个 和 m = 12 个 观测 值 分 别 取 自 两 个 随机 变量 X, 和 X,。 假 定 这 两 个 变量 
服从 二 元 正 态 分 布 ， 且 有 相同 的 协 方差 矩阵 : 


一 -].1 
a| Jo i] [A 4.8 
(1) 构造 样本 的 Fisher 线性 判别 函数 。 
(2) 将 观测 值 x。' = (0,1) 分 配 到 总 体 G sk G, (假定 有 等 代价 和 等 先 验 概率 ) 。 
二 、 练 习题 (计算 机 分 析 ， 发 电子 邮件 ) 
1. 某 银行 从 历史 贷款 客户 中 随机 抽取 16 个 样本 ,根据 设计 的 指标 体系 分 别 计算 他 们 
“商业 信用 支持 度 ”(x, ) 和 “市 场 竞争 地 位 等 级 ”(” ) ， 类 别 变量 G 中 ，1 代表 贷款 
成 功 ，2 代表 贷款 失败 。 
(1) 为 了 给 正确 贷款 提供 决策 支持 ， 请 建立 判定 准确 率 比 较 高 的 判别 分 析 模 型 。 
(2) 根据 建立 的 模型 ， 判 定 是 否 给 某 客户 (x, =131 ,x, = -2) 提 供 贷款 。 


客户 x, x; Ç 客户 x 2, G 
l 40 1 1 9 125 -2 2 
2 35 1 1 10 100 -2 2 
3 15 -] l 11 350 -] 2 
E 29 2 l 12 54 -1 2 
5 l 2 1 13 4 -1 2 


- 
D 
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5725 
(+ ЕЖ) 
客户 x, X? G 客户 X X; G 
6 -2 I 1 14 2 0 2 
7 22 0 l 15 - 10 -] 2 
8 10 1 1 16 131 -2 2 


2. 以 舒张 期 血压 和 血浆 胆固醇 含量 预测 被 检查 者 是 否 患 冠 心 病 。 测 得 15 名 冠 心病 人 
和 16 名 健康 人 的 舒张 压 拉 (mmHg) 及 血浆 胆固醇 含量 X, (mg/dl) ， 结 果 见 下 表 。 


冠 心病 组 《4 类 ) 正常 组 (B fB) 

编号 (Ak) Xu Xu 编号 (Bk) X, Xas 
1 74 200 1 80 80 
2 100 144 2 94 172 
3 110 150 3 100 118 
4 70 274 4 70 152 
5 96 212 5 80 172 
6 80 158 6 80 190 
7 80 172 7 70 142 
8 100 140 8 80 107 
9 100 230 9 80 124 
10 100 220 10 80 194 
11 90 239 11 78 152 
12 110 155 12 70 190 
13 100 155 13 80 104 
14 96 140 14 80 94 
15 100 230 15 84 132 
16 70 140 


(1) 对 每 一 组 数据 用 不 同 的 符号 作 两 变量 的 散 点 图 ， 观 察 它 们 在 平面 上 的 散布 情况 , 
并 判断 对 该 组 数据 作 判 别 分 析 是 和 否 合适 。 | 

(2) 分 别 建立 距离 判别 〈 等 方差 阵 和 不 等 方差 阵 ) 、 线 性 判别 、Fisher 判别 、Bayes 
判别 分 析 模 型 ， 计 算 各 自 的 判别 符合 率 ， 确 定 哪 种 判别 方法 最 恰当 。 

(3) 绘制 线性 判别 上 函数 图 。 

3. 某 大 学 用 学 生 的 大 学 平均 学 分 (x; :GAP) 这 一 综合 “指标 ”和 研究 生 管理 才能 测 
验 分 (xx GMAT) 帮助 招生 人 员 录 取 研 究 生 。 利 用 近期 报考 者 的 x, \ ”分 类 为 G, : 录取 ; 
G: 不 录取 ; G: RE (在 一 定 意 义 上 ， 这 里 的 总 体 划 分 带 有 人 为 性 ) 。 原 始 数据 见 下 
Ko WH Bayes 判别 法 建立 判别 函数 ， 并 确定 新 申请 者 (CPA :3. 21, GMAT 497) ЛА ASIE 
一 类 ? 


16 = танна 


ЕТ T 
"s Ts 
(paw |» | xz | zs | as | e |zw | es 
[эм [ж s | ze | | ë [эв | ee 
3 322 | 482 | 34 | 22 | аа | 6@ | 314 | 49 
s [ae [ж | x pas pe | « [2e | aa 
[эз pe [ж pen | az | € [эз | жо 
: [san | | ая | m | e | 25 | <s 
[зә [ж | [2x] э» | & mama 
a [3e m] e [za [aa | n |25 | e 
a [an |» [в [2«]| эз» | 5 |29 | < 
s |ou | m | « [те | s [ow | 2 | se 
в [sa | m [е [za | [| s [25 | ag 
n [эе [ sm | a [zu [в | wn [sm | ag 
a asm |» [aa | | 7 [э | ae 
» [sm pm [| sr [її |o |o» |3 [s 
n [эз | s | s [an | m | m [se | э» 
a [si | m | 5 [в |» | s | so | 
x [am [= [эз Гот [om | в [зм [яв 
z [as [es [ m [an [on | | - 

a [эз | s | 5 аә | sm | - 
ssim] | T | PL — 

x [эв |a sl | | j — _ 

a ism an | | | | —_ 


4. 对 于 A 股市 场 2009 年 陷入 财务 困境 的 上 市 公司 (ST 公司 ) ， 我 们 收集 了 8 间 ST 
公司 陷 人 财务 困境 前 一 年 〈2008 年 ) 的 财务 数据 ， 同 时 对 于 财务 良好 的 公司 ( 非 ST 公 
司 ) ， 收 集 了 同一 时 期 8 间 非 ST 公司 对 应 的 财务 数据 。 数 据 涉 及 四 个 变量 : 资产 负债 率 
x%1、 流 动 资产 周转 率 x,、 总 资产 报酬 率 x， 和 营业 收入 增长 率 x。。 类 别 变量 6G 中 2 代表 ST 
公司 ，1 代表 非 ST 公司。 


(2) 某 公司 2008 年 财务 数据 为 : х, = 78.356 3, х, = 0.889 5,x, = 1.800 1, 
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x, =14. 102 2。 试 判定 2009 年 该 公司 是 否 会 陷 人 财务 困境 。 


证 券 简 称 x, х; X4 X4 G 
ST 中 源 60.672 5 1.024 7 11.670 5 -26. 539 2 
ST 宇航 25. 598 3 1.919 2 -5. 830 2 26.0492 2 
ST HE 90. 872 7 1. 967 1 -14. 184 5 -12.9439 2 
ST 万 杰 90. 461 9 1.002 2 1.816 9 65.7273 2 
ST ЖЧ 53. 456 5 0. 759 3 – 23. 884 3 -38.3107 2 
ST 筑 信 92. 225 6 1.784 7 -4. 105 7 19.2281 2 
ST 中 源 60.672 5 1.0247 11.670 5 – 26. 539 2 
ST 东航 115. 119 6 4.657 7 — 16. 253 7 -3.917 2 
洪 城 股份 38. 985 6 0. 603 6 2.379 1 -2.546 1 l 
工大 首创 28. 919 7 2.528 1 2. 356 4 -0.289 1 
交大 南洋 56. 744 3 1. 530 7 -0. 18 3.7282 1 
九鼎 新 材 52. 120 3 1. 346 4 5.090 8 10.786 8 1 
恩 华 药 业 52. 873 1 2.1049 9. 086 6 18.3486 1 
东 百 集团 54. 438 9 5. 607 8 13. 784 6 22.3118 1 
广东 明珠 46. 379 3 0. 997 4 9. 480 6 15.3517 1 
中 国 国 航 79. 486 3 5. 919 -9.473 9 7.0016 1 


(1) 分 别 建立 线性 判别 、 非 线性 判别 、 距 离 判 别 〈 等 方差 阵 和 不 等 方差 阵 ) 和 
Bayes 判别 分 析 模 型 ， 计 算 各 自 的 判别 符合 率 ， 确 定 哪 种 判别 方法 最 恰当 。 


数据 来 源 ， WIND 资讯 。 


5. 植物 分 类 之 判别 分 析 : 费 软 (Fisher) 于 1936 FERREE (Iris) 数据 被 广 
泛 地 作为 判别 分 析 的 经 典 例子 。 数 据 是 对 3 ЈЕЛЕ (в): WERE (R12). Ж 
tq (第 2 组 ) 和 佛 击 尼 亚 塌 尾 花 〈 第 3 组 ) 各 抽取 一 个 容量 为 50 的 样本 ， 测 量 其 
ДЕЕ К: (sepallen, x). 438 9E (sepalwid, х,). 4 #1 (petallen, х,), Ж ## (реі- 
alwid, x,), ， 单 位 为 mm， 数据 见 下 表 。 


第 1 组 
x, x; x; x, 
3.1 35 L4 12 
49 3 1.4 0.2 
аг Sa L3 12 
46 3.1 15 02 
3.6 1.4 0.2 
5.4 3.9 1.7 0.4 
46 34 1.4 0.3 
5 34 1.5 0.2 
44 29 L4 0.2 


63 3.3 6 2. 5 
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( 续 上 表 ) 

i X, 
10 4.9 
ll 5.4 
12 4.8 
Il 4.8 
l4 4.3 
16 58 
l6 5.7 
17 5.4 
18 5.1 
19 5.7 
20 5.1 
21 5.4 
22 3.1 
23 4.6 
24 5.1 
25 4.8 
26 5 
27 5 
28 5.2 
z^ X4 
30 4.7 
31 4.8 
32 5.4 
jd 52 
34 5.5 
35 4.9 
36 5 
ЭГ. са; 
3 4.9 
39 4.4 
40 5.1 
41 5 
42 4.5 
43 4.4 
44 5 
45 5.1 
46 4.8 
47 5.1 
48 4.6 
49 5.3 
50 5 


6. 试 编写 两 类 正 态 总 体 判别 分 析 的 R 语言 函数 。 


第 1 组 
X; 
3.1 
3.7 
3.4 


oo л 32 mw л Ь с t^ l2 =— [гә кє 
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7 聚 类 分 析 及 R 使 用 


【目的 要 求 】 要 求学 生理 解 聚 类 分 析 的 目的 和 意义 及 其 统计 思想 ， 了 解 变 量 类 型 的 几 
种 尺度 定义 ; 熟悉 Q 型 和 R 型 聚 类 分 析 常 用 的 距离 和 相似 系数 的 定义 ， 特 别 是 Minkowski 
距离 ; 了 解 教 材 中 介绍 的 6 种 系统 聚 类 方法 ， 以 及 它们 的 统一 公式 ; 熟悉 软件 中 最 长 
( 短 ) 距离 法 、 重 心 法 和 Ward ( 离 差 平方 和 ) 法 的 具体 使 用 步骤 。 

【教学 内 容 】 聚 类 分 析 的 目的 和 意义 ; 聚 类 分 析 中 所 使 用 的 几 种 尺度 的 定义 ; 6 种 系 
统 聚 类 方法 的 定义 及 其 基本 性 质 ; 计算 程序 中 有 关 聚 类 分 析 的 算法 基础 ; 在 理解 系统 聚 
类 方法 基本 性 质 基 础 上 ， 初 步 掌 握 实 际 问题 中 选用 聚 类 方法 与 对 应 的 测量 距离 的 原则 。 


7.1 聚 类 分 析 的 概念 和 类 型 


1. 聚 类 分 析 法 的 概念 
聚 类 分 析 法 (cluster analysis) 是 研究 “ 物 以 类 聚 ” 的 一 种 现代 统计 分 析 方 法 ， 在 社 
会 生活 的 众多 领域 中 ， 都 需要 采用 聚 类 分 析 作 分 类 研究 。 过 去 人 们 主要 靠 经 验 和 专业 知 
识 作 定 性 分 类 处 理 ， 很 少 利用 数学 方法 ， 致 使 许多 分 类 都 带 有 主观 性 和 任意 性 ， 不 能 很 
好 地 揭示 客观 事物 内 在 的 本 质 差别 和 联系 ， 特 别 是 对 于 多 因素 、 多 指标 的 分 类 问题 ， 定 
性 分 类 更 难以 实现 准确 分 类 。 为 了 克服 定性 分 类 的 不 足 ， 多 元 统计 分 析 逐 渐 被 引进 数值 
分 类 学 ， 形 成 了 聚 类 分 析 这 个 分 支 。 
聚 类 分 析 方 法 近 十 年 来 发 展 很 快 ， 并且 在 经 济 、 管 理 、 地 质 勘探 、 天 气 预 报 、 生 物 
分 类 、 考 市 学 、 医 学 、 心 理学 以 及 制定 国家 标准 和 区 域 标准 等 许多 方面 的 应 用 都 齐 有 成 
效 ， 因 而 成 为 目前 国外 较为 流行 的 多 变量 统计 分 析 方 法 之 一 。 
聚 类 分 析 的 目的 是 把 分 类 对 象 按 一 定 规则 分 成 者 二 类， 这 些 类 不 是 事先 给 定 的 ， 而 
是 根据 数据 的 特征 确定 的 。 在 同一 类 中 这 些 对 象 在 某 种 意义 上 趋向 于 彼此 相似 ， 而 在 不 
同类 中 对 象 趋向 于 不 相似 。 
系统 聚 类 法 
聚 类 分 析 方 法 , 快速 聚 类 法 
模糊 聚 类 法 
2. 聚 类 分 析 法 的 类 型 
在 实际 问题 中 ， 经 常 要 对 一 些 东西 进行 分 类 。 例 如 ， 在 古生物 研究 中 ， 通 过 挖掘 出 
来 的 一 些 骨 骼 的 形状 和 大 小 对 它们 进行 科学 的 分 类 ; 在 地 质 勘探 中 ， 通 过 矿石 标本 的 物 
探 、 化 探 指标 对 标本 进行 分 类 ; 在 经 济 区 域 的 划分 中 ， 根 据 各 主要 经 济 指标 将 全 国 各 省 
区 分 成 几 个 区 域 。 这 里 ， 上 骨骼 的 形状 和 大 小 ， 标 本 的 物探 、 化 探 指 标 以 及 经 济 指标 是 我 
们 用 来 分 类 的 依据 ， 称 为 指标 (或 变量 )， 用 Х,, X,, X, co, X, 表示 , p 是 变量 的 个 
数 ; 需要 进行 分 类 的 骨骼 、 矿 石和 地 区 称 为 样品 , 用 1，2，3，…, n KN, n 是 样品 的 
个 数 。 聚 类 分 析 的 数据 结构 见 表 7 - 1。 ` 
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X7-1 聚 类 分 析 数 据 结构 表 


变量 
样本 


1 *u Xi sis XI 
2 х ху s.. X», 


3 X31 X3 "m Xy 


在 聚 类 分 析 中 ， 基 本 的 思想 是 认为 所 研究 的 样品 或 指标 《变量 ) 之 间 存 在 着 程度 不 
同 的 相似 性 ( 亲 玖 关系 )。 于 是 根据 一 批 样品 的 多 个 观测 指标 ， 具 体 找 出 一 些 能 够 度量 样 
品 〈 或 指标 ) 之 间 相 似 程度 的 统计 量 ， 以 这 些 统计 量 为 划分 类 型 的 依据 ， 把 一 些 相 似 程 
度 较 大 的 样品 (或 指标 ) 聚合 为 一 类 ， 把 另外 一 些 彼此 之 间 相 似 程度 较 大 的 样品 (ox d 
标 ) 又 聚合 为 男 一 类 ， 关 系 密切 的 聚合 到 一 个 小 的 分 类 单位 ， 关 系 玖 远 的 聚合 到 一 个 大 
的 分 类 单位 ， 直 到 把 所 有 样品 〈 或 指标 ) 都 聚合 完毕 ， 把 不 同 的 类 型 一 一 划分 出 来 ， 形 
成 一 个 由 小 到 大 的 分 类 系统 。 最 后 把 整个 分 类 系统 画 成 一 张 聚 类 图 ， 用 它 把 所 有 样品 
(或 指标 ) 间 的 亲 朴 关系 表示 出 来 。 

通常 根据 分 类 对 象 的 不 同 可 将 聚 类 分 析 分 为 两 类 : 一 类 是 对 样品 进行 分 类 处 理 ， 叫 
Q 型 ; 一 类 是 对 变量 进行 分 类 处 理 ， 叫 R 型 。Q 型 聚 类 又 叫 样品 分 类 ,就 是 对 观测 对 象 
进行 聚 类 ， 是 根据 被 观测 的 对 象 的 各 种 特征 进行 分 类 。 

Q 型 聚 类 : 对 样品 的 聚 类 
SOSA gae 型 聚 类 : 对 变量 的 聚 类 

在 经 济 管理 中 多 用 Q 型 聚 类 方法 。 反 映 同一 事物 特点 的 变量 有 很 多 ， 我 们 往往 根据 
所 研究 的 问题 选择 部 分 变量 对 事物 的 某 一 方面 进行 研究 。 由 于 人 类 对 客观 事物 的 认识 是 
有 限 的 ， 往 往 难 以 找 出 彼此 独立 的 、 有 代表 性 的 变量 ， 而 影响 对 问题 的 进一步 认识 和 研 
究 ， 因 此 通常 先进 行 变量 聚 类 ， 这 样 既 能 找 出 彼此 独立 且 有 代表 性 的 目 变量 ， 而 又 不 丢 
失 大 部 分 信息 。 


7.2 Жж 


聚 类 分 析 的 基本 原则 是 将 有 较 大 相似 性 的 对 象 归 为 同一 类 ， 而 将 差异 较 大 的 个 体 归 
人 不 同 的 类 。 为 了 将 样品 聚 类 ， 就 需要 研究 样品 之 间 的 关系 。 一 种 方法 是 将 每 一 个 样品 
看 作 上 p 维 空间 的 一 个 点 ， 并 在 空间 定义 距离 ， 距 离 较 近 的 点 归 为 一 类 ， 距 离 较 远 的 点 则 
属于 不 同 的 类 。 对 变量 通常 计算 它们 的 相似 系数 ， 性 质 越 接近 的 变量 的 相似 系数 越 接 近 
于 1 (或 -1), 彼此 无 关 的 变量 的 相似 系数 越 接 近 于 0。 比 较 相 似 的 变量 归 为 一 类 ， 不 怎 
么 相似 的 变量 属于 不 同 的 类 。 

可 进行 聚 类 的 统计 量 有 距离 和 相似 系数 : 
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欧 氏 距离 
вај аква 

兰 氏 距离 

"m 

相似 系数 人 相关 系数 

对 样品 进行 诊 类 时 ， 我 们 将 把 样品 间 的 “靠近 ”程度 用 某 种 距离 来 刻画 ;对 指标 的 
案 类 ， 往 往 用 某 种 相似 系数 来 刻画 。 

当选 用 个 样品 、p 个 指标 时 (数据 格式 见 表 7 -1) ， 就 可 以 得 到 一 个 n хр 的 数据 
ЖЕ X= (x.)n xp， 该 矩阵 的 元 素 x 表示 第 i 个 样品 的 第 j 个 变量 值 。 

对 样品 或 变量 进行 分 类 时 ， 我 们 常用 距离 和 相似 系数 对 样品 或 变量 之 间 的 相似 性 进 
行 度量 。 距 离 常用 来 度量 样品 之 间 的 相似 性 ， 而 相似 系数 常用 来 度量 变量 间 的 相关 性 。 

常见 的 数据 类 型 有 : 

(1) 间隔 尺度 : 指 变量 用 连续 的 量 来 表示 。 

(2) 有 序 尺度 : 指 变 量度 量 时 没有 明确 的 数量 表示 ， 而 是 划分 一 些 有 次 序 关系 的 等 级 。 

(3) 名 义 尺度 : 指 变量 度量 时 既 没 有 数量 表示 ， 也 没有 次 序 关系 。 

这 里 用 得 最 多 的 还 是 对 间隔 尺度 数据 的 聚 类 。 

LER 

距离 多 用 于 样品 的 分 类 ， 令 d, 表 示 样品 x, 和 % 的 距离 ， 一 般 要 求 d 满足 以 下 四 个 
条 件 : 


聚 类 统计 量 


(1) d; =0 ex; = x; 
(2) d ,>0 作对 一 切 Xis Xx; 
(3) d, =d; exjI—79) x;, x; 


(4) d,xd, +4, «Х—И x;, x;, x, 

ТЕЖЕ НЭРЖ ОК XE АУЕ В iX ШЖ, —B K ВТ 2E BD A) ЛЕНЕ 
满足 的 ， 有 一 些 不 能 满足 (4) ， 但 是 在 广义 的 角度 上 也 称 其 为 距离 。 

设 x,(i=1,2,…,n;j=1,2,…,p) 为 第 i 个 样品 的 第 j 个 指标 的 观测 数据 。 即 者 每 个 
样品 有 个 变量 ， 则 每 个 样品 都 可 以 看 成 p 维 空间 中 的 一 个 点 , n 个 样品 就 是 p 维 空间 中 
п, ЕХ d; 为 样品 x; 5j x, 的 距离 。 于 是 得 到 一 个 nxn 的 距离 矩阵 D = (d;),、,。 


di d, … d, 

d d e d 
s 

d, do i d,, 
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162. a. 元 统计 分 析 及 R 语 言 建 模 
【 例 7 -1】 以 下 列举 五 个 观察 值 、 两 个 变量 数据 的 平面 散 点 图 。 


:> xl =с(5,7,3,6,6) 


i 
i» х2 =с(7,1,2,5,6) 
i» plot( xl ,x2 ) | 

I 


ъ= аж = = TO = = эй = = ner hum Шш ша = ж жш = ж шш є б шш ш ощ ше т ш эшш к ш ш» ——————M————————mmm 


由 于 只 有 两 个 变量 ， 所 以 从 散 点 图 上 就 可 以 直观 地 将 这 五 个 样品 分 为 几 类 ,但 当 变 
量 较 多 时 ， 这 种 方法 显然 是 不 行 的 。 

为 了 计算 平面 上 各 点 之 间 的 距离 d; ， 在 聚 类 分 析 中 对 连续 变量 常用 的 距离 有 : 

(1) 明 氏 距离 (Minkowski): 


1,(9) = [X (xa -x4)']* 
"4 q=1 t, 4,01) =$ | xa zal ， 称 为 绝对 值 距离 (manhattan ) ; 


当 g=2 时 ,dy(2) = [之 (xx -za)2]2, WIKRE (euclidean); 
当 g=%m 时 ， d,( œ ) max | ха-ха | ， 称 为 切 比 雪夫 距离 (maximun), 
(2) 马 氏 距离 (Mahalanobis ) : 

d,(M) = (x, —x;)' Z (x; —;) 
Ж, х, 为 样品 CBS p 个 指标 组 成 的 行 向 量 ， > 为 协 方差 阵 。 
优点 : 马 氏 距离 既 排 除了 各 指标 间 的 相关 性 干扰 ， 又 消除 了 各 指标 的 量 纲 。 
缺点 : 样品 协 方差 矩阵 在 聚 类 过 程 中 不 变 ， 这 点 不 合理 。 
(3) 兰 氏 距离 ( Canberra): 

q (up =l + za (0) 

p* Xi tX, 

下 面 是 欧 氏 和 马 氏 距离 算出 的 距离 相似 矩阵 。 


ЕЕ ЕРЕ И РАЯ dist( ) 的 用 法 


dist(x, method = " euclidean" , diag = FALSE, upper = FALSE, p = 2) 


x 为 数据 矩阵 ,数据 框架 
method 为 计算 方法 ,包括 "euclidean" , " maximum" ," manhattan" ," canberra" ," binary" or 


" minkowski" 

diag 为 是 否 包含 对 角 线 元 素 
upper 为 是 否 需 要 上 三 角 

p 为 Minkowski PE 25 f] ЖҮК 
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wu... .........-.....................-........-.....-...-..- 1. „== ..................................................,. 


d, 
G, 
G, : 
G, 15.385 4.123 0.000 4.243 5.000: 
G, 
С, 


和 


机 


| > dist(X) | > dist(X,method = "manhattan" ) | 
| 1 2 3 4 [ 20-4 ' 
:26.325 : 28 | 
‚35.385 4.123 i 3 75 
42.236 4.123 4.243 : 4356 
i 51.414 5.099 5.000 1.000 | 5$ 26 71 
! > dist(X, diag = TRUE) ! > dist(X,method = "minkowski" ,p =1) 
| 1 2 з а 5 i| 1234 
i 1 0.000 i 2 8 : 
! 2 6.325 0.000 E аА | i 
: 3 5.385 4.123 0.000 P 4 4 4 46 | 
i 4 2.236 4.123 4.243 0.000 i 5 2671 | 
: 5 1.414 5.099 5.000 1.000 0.000 : > dist(X,method = "minkowski" ,p=2) | 
i > dist(X, upper = TRUE) 1 2 3 4 
: 1 2 3 4 5 ! 2 6325 | 
P1 6.325 5.385 2.236 1.414 | 3 5.385 4.123 : 
; 2 6.325 4.123 4.123 5.099 i 4 2.236 4.123 4.243 
! 3 5.385 4.123 4.243 5.000 | 5 1.414 5.099 5.000 1.000 
; 4 2.236 4.123 4.243 000 | 
i 5 1.414 5.099 5.000 1.000 | | 


2. 相似 系数 

对 两 个 变量 之 间 的 相似 程度 可 用 相似 系数 来 刻画 ， 用 C; 表 示 第 i 个 变量 与 第 j 个 变 
量 之 间 的 相似 系数 。C; 的 绝对 值 越 接 近 于 1， 表 示 指 标 i 与 指标 j 的 关系 越 密切 ; C; 的 绝 
对 值 越 接近 于 0， 表 示 指 标 i 与 指标 j 的 关系 越 玖 远 。 常 用 的 相似 系数 有 : 

(1) 夹 角 余弦 : 


n 


Xx, X;. 
= o 


C, (1) = 一 一 ”一 一 一 
TOT E 
(2) ХАЖ: 


Y (а - x,) (xk - xj) 


C, (2) = 
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3. 距离 和 相似 系数 之 间 的 转换 
一 般 来 说 ， 距 离 越 小 ， 两 样品 之 间 关 系 越 密切 ， 而 相似 系数 越 大 ， 两 变量 之 间 关 系 
越 密切 。 为 了 聚 类 分 析 方 便 起 见 ， 可 以 用 下 面 的 通用 公式 得 到 变量 间 的 距离 : 
d; =1 - C; 


7.3 ”系统 聚 类 法 


7.3.1 系统 聚 类 法 的 基本 思想 


确定 了 距离 和 相似 系数 后 就 要 进行 分 类 。 分 类 有 许多 种 方法 ， 最 常用 的 一 种 方法 是 
在 样品 距离 的 基础 上 定义 类 与 类 之 间 的 距离 。 首 先 将 n 个 样品 分 成 n 类 ， 每 个 样品 自 成 
一 类 ， 然 后 每 次 将 具有 最 小 距离 的 两 类 合并 ， 合 并 后 重新 计算 类 与 类 之 间 的 距离 ， 这 个 
过 程 一 直 持续 到 将 所 有 的 样品 归 为 一 类 为 止 ， 并 把 这 个 过 程 画 成 一 张 育 类 图 ， 由 聚 类 图 可 
方便 地 进行 分 类 。 因 为 聚 类 图 很 像 一 张 系统 图 ， 所 以 这 种 方法 就 叫 系 统 聚 类 法 ( hierachical 
clustering method) 。 系 统 聚 类 法 是 目前 在 实际 中 使 用 最 多 的 一 种 方法 。 从 上 面 的 分 析 可 以 
看 出 ， 虽 然 我 们 已 给 出 了 计算 样品 之 间 的 距离 ， 但 在 实际 计算 过 程 中 还 要 定义 类 与 类 之 
间 的 距离 。 定 义 类 与 类 之 间 的 距离 也 有 许多 方法 ， 不 同 的 方法 就 产生 了 不 同 的 系统 聚 类 
方法 ， 常 用 的 有 如 下 六 种 : | 

(1) 最 短 距离 法 : 类 与 类 之 间 的 距离 等 于 两 类 最 近 样 品 之 间 的 距离 。 

(2) 最 长 距离 法 : 类 与 类 之 间 的 距离 等 于 两 类 最 远 样品 之 间 的 距离 。 

(3) 类 平均 法 : 类 与 类 之 间 的 距离 等 于 各 类 元 素 两 两 之 间 的 平方 距离 的 平均 。 

(4) 重心 法 : 类 与 类 之 间 的 距离 定义 为 对 应 这 两 类 重心 之 间 的 距离 。 对 样品 分 类 来 
说 ， 每 一 类 的 类 重心 就 是 该 类 样品 的 均值 。 

(5) 中 间距 离 法 : 最 长 距离 压 大 了 类 间距 离 ， 最 短 距离 低估 了 类 间距 离 。 介 于 两 者 
间 的 距离 法 即 为 中 间距 离 法 ， 类 与 类 之 间 的 距离 既 不 采用 两 类 之 间 最 近 距 离 ， 也 不 采用 
最 远 距离 ， 而 是 采用 介 于 最 了 远 和 最 近 之 间 的 距离 。 

(6) 离 差 平方 和 法 (Ward 法 ) : 基于 方差 分 析 的 思想 ， 如 果 类 分 得 正确 ， 同 类 样品 
之 间 的 离 差 平方 和 应 当 较 小 ， 类 与 类 之 间 的 离 差 平方 和 应 当 较 大 。 

结合 R 语言 ， 本 书 只 给 出 常用 的 六 种 方法 。 


7.3.2 系统 聚 类 法 的 计算 公式 


1. 最 短 距 离 法 
该 法 用 D,(p,q) =min[|d; | ie G,,jeG,| 来 刻画 类 С, 与 类 G, 中 最 临近 的 两 个 样品 的 
距离 。 | | 
若 类 G, 与 类 G, 合并 为 C,， 则 С, 与 其 他 类 G, 的 距离 为 : 
D,(r,s) =min| D,(p,s) ,D,(q,s) | 


-- 
a 


E 
LJ - 
` . ^ 
P4 l° ° т е3 ` 
Ф ` 
° ^ 
ә . 


` 
. - - - 
=... m . 
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2. 最 长 距离 法 
该 法 用 D,(p,q) =maxíÍd; | ieG,,jeG,| 来 刻画 类 G, 与 类 С, 中 最 远 的 两 个 样品 的 
距离 。 
若 类 G, 与 类 C, 合并 为 C,， 则 G, 与 其 他 类 С, 的 距离 为 : 
D,(r,s) = meri Dep. "m. ,Di(g, s) | 


3. 重心 法 

在 样本 空间 中 ， 一 个 类 用 它 的 重心 〈 即 该 类 样品 的 均值 ) 作 代 表 较 为 合理 ， 类 与 类 
之 间 的 距离 就 用 重心 之 间 的 距离 来 表示 。 

设 样品 之 间 的 距离 用 欧 氏 距离 ， 若 类 6, 与 类 6, 合并 为 G, 后 ,它们 各 有 n,、n,、 


n(n, =n, +n) 个 样品 ， 它 们 的 重心 用 že. 5, 和 z, HER, BR, x = (пр +n ā,), 
某 一 类 C, 重心 为 %:， 它 与 新 类 С, 的 距离 是 : 
D'(k,r) =( 一 天 ) (x, — xX,) 
其 递 推 公式 为 : 
D'(k,r) = 720 (К.р) кЗ? (k,g) - „>. „рр, q) 
4. 中 间距 离 法 
该 方法 是 对 最 短 距 离 法 和 最 长 距离 法 的 一 个 折 中 ， 即 令 类 间距 离 的 递 推 公式 为 : 
& КЕСКЕ СЕСЕ Loa 
( 当 G, 一 16,,G, | ID = 了 Du + 了 Du - 4 D, 
5. 类 平均 法 
将 两 类 之 间 ———— n 的 平均 来 计算 距离 ， 即 
D'(k,r) 55 = бй. a k kdi t у, D di) 
其 递 推 公式 为 : D'(k,r) = 之 D'(k,p) +“ D (k,q) 
6. 离 差 平方 和 法 (Ward Ж) 
该 方法 是 Ward 提出 来 的 ， 所 以 又 称 为 Ward 法 。 该 方法 的 基本 思想 来 自 于 方差 分 析 ， 
如 果 分 类 正确 ， 同 类 样品 的 离 差 平方 和 应 当 较 小 ， 类 与 类 的 离 差 平方 和 应 当 较 大 。 具 体 
做 法 是 先 将 п 个 样品 各 上 自 成 一 类 ， 然 后 每 次 缩小 一 类 ， 每 缩小 一 类 ， 高 差 平 方 和 就 要 增 
大 ， 选 择 使 方差 增加 最 小 的 两 类 合并 ， 直 到 所 有 的 样品 归 为 一 类 为 止 。 
BUE n 个 样品 分 成 类 C, , G, е, G, , 用 ,表示 C, 中 的 第 i 个 样品 ， n, Jj G, 中 样 
BU, X 是 G, 的 重心 ， 则 С, 的 样品 离 差 平方 和 为 : 


5, = X. (X, -X,)'(X, - X,) 
如 果 G, 和 G, 合并 为 新 类 G,， 类 内 离 差 平方 和 分 别 为 : 
= Y (X, -X,)' (X, -X,) 
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S, = Y (X, -X,)'(X, -X,) 
5, = Y (X, -X,)'(X, -无 ) 


它们 反映 了 各 自 类 内 样品 的 分 散 程度 ， 如 果 С, 和 С, 这 两 类 相距 较 近 ， 则 合并 后 所 
增加 的 离 差 平方 和 S, -~ 5, - S, 应 较 小 ， 否 则 ， 应 较 大 。 于 是 定义 G, 和 G, 之 间 的 平方 中 
离 为 ; 

D, =S, – 5, - 5, 
ЖФ, G = G, UG,， 可 以 证 明 类 间距 离 的 递增 公式 为 : 


dE " n, *n, M" кош бп, +n, " 


这 六 种 系统 聚 类 法 的 并 类 原则 和 过 程 完 全 相同 ， 不 同 之 处 在 于 类 与 类 之 间 的 距离 定 
义 。 当 采用 欧 氏 距离 时 ，Lance 和 Williams 于 1967 年 将 这 些 方法 统一 成 如 下 的 递 推 公式 : 
D? =a,D’ +asD * BD? * y |D? -D’ | 


表 7 -2 递 推 公式 的 参数 表 
方法 a, a, B y 
(1) 最 短 距 离 法 (single) 1/2 1/2 0 - 1⁄2 
(2) 最 长 距离 法 (complete) 1⁄2 1⁄2 0 1⁄2 
(3) 类 平均 法 (average) = a 0 0 
(4) 中 间距 离 法 (median) 1/2 1/2 -1/4 0 
(5) 重心 法 (centroid) - aa, 0 
n, n, 
(6) Ward 法 (ward) n, +n, RTR, G... ss 0 
n +n n +n п +n 


7.3.3 系统 聚 类 法 的 基本 步 又 


(1) 计算 n 个 样品 两 两 间 的 距离 | dj} ， 记 作 D. 

(2) 构造 n 个 类 ， 每 个 类 只 包含 一 个 样品 。 

(3) 合并 距离 最 近 的 两 类 为 一 个 新 类 。 

(4) 计算 新 类 与 当前 各 类 的 距离 ， 夺 类 个 数 为 1， 转 到 步骤 (5)， 否则 回 到 步 
Ж (3). 

(5) ipi ASH, 

(6) 决定 类 的 个 数 和 类 。 
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系统 聚 类 函数 hclust( ) 的 用 法 


hclust( d А method = " complete" шү ) 


d 为 相似 矩阵 
method 为 系统 聚 类 方法 ,包括 " магі", "single" , "complete" , " average" , " mcquitty" , " me- 


dian" or "centroid". 


下 面 应 用 例 7 -1 的 数据 进行 系统 聚 类 。 

l. 最 短 距 离 法 〈 采 用 欧 氏 距离 ) 

开始 有 五 类 ， 即 每 个 样品 目 成 一 类 1С, ,С,,С,,С,,С,| ， 这 五 类 之 间 的 距离 就 等 于 5 
个 样品 之 间 的 距离 ， 距 离 阵 记 为 Du ， 其 最 小 元 素 是 Du(4,5) = 1. 00， 故 将 类 G, 和 G, 合 
并 成 一 新 类 Ge = | С, ,Gs | , 然后 计算 Gs 5 Gin G,. б, 之 间 的 距离 。 

应 用 公式 D,(6,i) =min| Do。(4,i) ,Do(5,i)1， 求 其 最 近 相 邻 的 距离 是 : 

D,(6,1) = mini D,(4,1),D,(5,1)] 212.23,1.41| =1.41 

D, (6,2) = min (4,2) ,D,(5,2)]1 214.12,5. 09| =4. 12 

D,(6,3) = min| D(4,3) , D(5,3) |] 214. 24,5. 00| 24.24 


|o» he «- helust( dist( X) , " single" ) | > plot(hc) | 
| » cbind( hc $merge , hc $height ) = Cluster Dendrogram ' 
' ! + i 
| [1] 【,2] L,3] | чє Xi 
| = 
І [1,] -4 -5 1.000 ! š а ! 
: [2,] -1 | 1.414 : эй 
' ' t © ' 
t. [5] -2 72 413 | T 
| [4] -3 3 4.123 e | 
I I 1 


| 


16 @# - ooo onem 


2. ward ik (采用 欧 氏 距离 ) 


"+з-=—- #55" = а ш вв шш шш эшш єчєт = т оч= т тошт ъ в шш ® шот ч = == = = єҥ= т от отт тот ш”  ® © тот ше т = ч= = = Фү- ® — ш & ® шш & & шш ш в „© ша еш ш ш ош ш ть ы & шш & ®ъ шт точ тт оъ ш шш ш ьы шш ы ш эл © = = тт =т тт тт т т ть ы т отт тоточу 


【 例 7 -2】 为 了 研究 我 国 31 个 省 、 市 、 自 治 区 2001 年 城镇 居民 生活 消费 的 分 布 规 
根据 调查 资料 作 区 域 消费 类 型 划分 。 指 标 名 及 原始 数据 见 表 7 -3。 


X: 人 均 食品 支出 X,: 人 均 交 通 和 通信 支出 


X,: 人 均 衣 着 商品 支出 


X,: 人 均 家 庭 设备 用 品 及 服务 支出 


Х,: 人 均 医疗 保健 支出 


X,: 人 均 娱 乐 教育 文化 服务 支出 
X: 人 均 居 住 文 出 
Xs: 人 均 杂 项 商品 和 服务 支出 


| > he «- helust( dist( X), " ward" ) i > plot( hc) | 
: > cbind( hc $ тегре , hc $height) Cluster Dendrogram | 
. [1] [2] 1,3] . = 
(1 1 -4 -5 J| 000 i 2v | 
' - 三 : 
: [2] -1 1 210 | EM : 
: J -2 -3 4.123 = N е 
' » i N ' 
| 4,] 2 3 8. 356 | ur ] 
! ' ° ' 


表 7 -3 各 地 区 城镇 居民 家 庭 平 均 每 人 全 年 消费 性 支出 (元 /人 ) 
地 区 X, P І, X. X, X. x, 
北京 3229.28 821.72 847.39 677.66 768.34 1429.15 587.98 561.19 
K — 2588.10 531.97 806.36 435.38 585.94 897.02 808.05 334. 40 
河北 1583.68 530.02 399.04 420.15 390.24 498.06 461.18 197.39 
ШЧ 1412.95 518.10 316.99 347.49 317.83 567.85 391.06 250.74 
内 蒙 1423.22 594.69 29242 268.88 390.18 548.21 403.69 274.33 
辽宁 1846.11 592.01 272.75 378.31 347.47 575.06 412.09 230.62 
吉林 1650.95 547.04 257.73 325.37 344.97 528.61 453.85 228.70 
黑龙 江 1561.00 531.98 259.61 353.48 318. 34 534.22 432.09 201.64 
E 4021.77 577.39 642.08 557.96 875.35 1 359.75 732.44 569. 37 
江苏 2194.04 525.88 603.36 297.46 483.77 691.50 438.16 298. 58 
浙江 2888.28 669.03 926.68 532.69 689.00 1065.10 724.46 457.15 
安徽 1998.95 466.55 327.36 205.13 333.39 585.44 407.13 193.70 
福建 2651.11 506.94 488.37 283.24 559. 69 С $98.95 639.83 287.00 
江西 1587.55 353.44 292.10 149.98 310.94 488.24 527.16 185.11 
山东 — 1801.34 700.29 522.36 327.49 411.29 777.79 441.46 270.38 
河南 1424.90 484.16 333.24 298.74 299.89 427.88 650.25 191.10 
湖北 1799.38 582.66 347.84 241.87 336.19 698.89 586.33 211.63 
湖南 1943.55 551.47 460.15 328.63 474.69 826.89 662.40 298. 45 
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(# ЕЖ) 


地 区 
广东 
广西 
海南 
重庆 
四 川 
贵州 
云南 
西藏 
陕西 
甘肃 
青海 
TH 
新 疆 


X, 
3 089. 63 
1 968. 02 
2 022. 19 
2 337. 65 
2 082. 18 
1 748. 83 
2 105. 66 
2 626. 99 
1 589. 44 
1 639. 17 
] 790. 27 
1 562. 57 
1 716. 80 


X, 
382. 98 
363. 16 
208. 83 
589. 28 
489. 78 
486. 20 
535.41 


1 001. 52 


443. 74 
537. 94 
532. 51 
572. 03 
690. 14 


X, 
556. 14 
480. 73 
282. 49 
509. 82 
460. 55 
361. 88 
306. 73 
258. 2] 
529. 68 
367. 32 
350. 85 
469. 18 
440. 37 


数据 来 源 : 《中 国 统计 年 鉴 2002》 。 


为 了 对 系统 聚 类 法 有 一 个 全 面 的 了 解 ， 我 们 将 各 种 聚 类 方法 进行 对 比分 析 ， 从 中 确 


定 最 好 的 聚 类 结果 。 


用 R 语 言 把 我 国 31 个 省 、 市 、 自 治 区 消费 类 型 进行 分 类 ， 下 列 图 给 出 采用 欧 氏 距 
离 ， 分 别 用 最 短 距离 法 、 最 长 距离 法 、 类 平均 法 、 中 间距 离 法 、 重 心 法 和 Ward 法 得 出 的 


有 关 数 据 和 系统 图 。 


由 下 列 图 可 以 看 到 ， 不 同方 法 的 分 类 不 完全 一 样 。 这 也 说 明 目 前 聚 类 方法 还 不 够 成 


X, 
392.41 
253. 23 
243. 85 
334. 05 
300. 26 
249. 39 
369. 63 
220. 06 
361.18 
361. 40 
374. 40 
409. 96 
302. 82 


X, 


1 075. 32 


457. 24 
349. 44 
442. 50 
381. 47 
371. 68 
467. 60 
628. 39 
366. 30 
320. 88 
361. 90 
437. 72 
406. 72 


X, 
961. 79 
704. 58 
525. 92 
850. 15 
674. 80 
522. 74 
595. 92 
494. 99 
642. 45 
592. 72 
594. 03 
542. 39 
626. 58 


熟 。 为 了 便于 对 照 ， 将 六 种 方法 的 分 类 结果 综合 列 于 表 7 -4。 


从 直观 上 看 ， 最 短 距离 法 分 类 效果 较 差 ， 最 长 距离 法 和 Ward 法 分 类 效果 较 好 。 总 的 
可 以 分 为 三 类 : 北京 、 上 海 、 广 东 、 浙 江 、 天 津 为 一 类 ， 为 高 消费 地 区 ; 其 余 25 个 省 份 
(不 包括 西藏 ， 西 藏 情况 比较 特殊 ， 目 成 一 类 ) 归 为 一 大 类 ， 为 中 低 消费 地 区 ， 可 将 该 类 
进一步 分 类 ， 分 为 中 等 消费 地 区 和 低 消费 地 区 。 最 长 距离 法 和 类 平均 法 的 分 析 结 果 基 本 
上 是 相同 的 。 

由 于 R 语言 的 系统 聚 类 函数 选项 较 多 ， 所 以 我 们 编制 了 一 个 方便 的 函数 进行 快速 聚 
类 分 析 ， 下面 建立 一 个 系统 聚 类 分 析 的 函数 来 进行 各 种 距离 ( distance) 和 方法 


(method) HRX., 


X, 


1 126.74 


740. 06 
460. 06 
563. 72 
530. 25 
333. 73 
508. 82 
369. 10 
452. 73 
322. 94 
295. 48 
323. 16 
474. 61 
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H. clust < – function( Х,а = " euc" , m = " comp" „proc = F „plot = T) 
X 为 数值 矩阵 或 数据 框 
а 为 距离 计算 方法 ( 见 上 ) 


m 为 系统 聚 类 方法 ( 见 上 ) 
proc 为 是 否 输出 聚 类 过 程 
plot 为 是 否 输 出 聚 类 图 


:> d7.2 = read. table( " clipboard" ,header = T) # 在 mvstats. xls : d7. 2 中 选取 A1: D21 区 域 ,然后 ; 
拷贝 | 
:> plot( d7. 2) 


š 
x 
š 
š 
: [Š 
Š 
à 
= 
š 
š 
à 


H 
й 
ë 
à 
É 
Й 
š 
a 


gd ЖИ | 


300 700 1500 


400 800 


a dad * | ў 
de © m © 92 
$1. | à 
# 
400 800 


' ¿apa = 300 500 700 900 400 800 400 800 
# 建 立 系统 聚 类 函数 分 析 各 种 距离 (distance) 和 方法 ( method) 的 聚 类 
> H. clust( d7. 2," euclidean" ," single" ,plot = T) 


single 


200 400 600 800 


euclidean 


0 


Kh foe ЖЕК ЖЕ ЕЕ ЦЬ E RE ET BT HT e 386 2-2 E 
EU Minis a а RKE 


和 


Жый 34. 1E 4E R2 MN QW  — 0... NM. ] c. NE qo ert Tr: 


i> Н. clust( 47. 2," euclidean" ," complete" , plot = T) 


complete 


2500 


1500 


euclidean 


500 
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> H. clust( d7. 2," euclidean" ," median" ,plot = T) 


median 


euclidean 
о 3200 400 600 800 


Je e d LH e lae EE IET s f 323€ 32. ER ЕЕЕ 
ааш. 


> Н. clust( 7. 2," euclidean" ," average" ,plot = T) 


average 


1000 1500 


eudidean 


5 


EER SERIE L^ Re IST IST Herd E fe: masi ET Ln — UHR Df H 
„качанка н кошка МЕИЕН MIS 
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i> H. clust( d7. 2," euclidean" ," centroid" , plot = T) 


centroid 


1000 


eudidean 
600 


0 200 
| 
I 
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> H. clust( d7. 2," euclidean" ," ward" , plot = T) 


ward 


euclidean 
2000 4000 6000 8000 


qx E HET asura ERI GEI CE ЕЕЕ ШЕСЕ 
HEEL e E E A а E REE оса 


0 


© 机 


综合 考虑 以 上 的 分 析 结 果 ， 笔 者 认为 从 我 国 各 省 、 市 、 自 治 区 的 消费 情况 来 看 ， 
为 四 类 较为 合适 。 
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# 7-4 按 类 整理 聚 类 图 结果 - 
第 二 类 


山东 河北 山西 内 蒙古 辽宁 吉林 黑龙 江 
江西 河南 湖北 湖南 广西 海南 重庆 四 川 
云南 陕西 甘肃 青海 宁夏 新 疆 


第 三 类 


河北 山西 内 蒙古 辽宁 
吉林 黑龙 江 江西 ”山东 
河南 湖北 贵州 ”陕西 
甘肃 TUS 宁夏 新 给 


上 海 
广东 


北京 XM 
浙江 ”福建 


湖南 广西 重庆 四 川 
安徽 江苏 海南 云南 


第 四 类 

”| 北京 ”上海 ”天津 | 湖南 w P. FINT: 

分 四 类 тена ea и 吉林 黑龙 江 江西 
` 河南 陕西 ”甘肃 


TH 


* 西藏 情况 比较 特殊 。 


从 表 7 -4 可 以 看 出 ,北京 、 天 津 、 上 海 、 浙 江 、 广 东 和 福建 六 个 省 、 市 、 自 治 区 的 
消费 水 平 与 其 他 省 、 市 、 自 治 区 有 和 较 显著 的 差异 ， 这 是 符合 实际 情况 的 。 西 藏 比较 特殊 ， 
可 以 将 其 放 在 一 边 暂 不 归 类 。 


7.4 kmeans 聚 类 法 


7.4.1 kmeans 聚 类 的 概念 


系统 聚 类 法 需要 计算 出 不 同样 品 或 变量 的 距离 ， 还 要 在 聚 类 的 每 一 步 都 计算 “类 间 
距离 ”"”， 相 应 的 计算 量 自然 比较 大 。 特 别 是 当 样 本 的 容量 很 大 时 ， 需 要 占据 非常 大 的 计算 
机 内 存 空间 ， 这 给 应 用 带 来 一 定 的 困难 。 而 kmeans 法 是 一 种 快速 聚 类 法 ， 采 用 该 方法 得 
到 的 结果 比较 简单 易 懂 ， 对 计算 机 的 性 能 要 求 不 高 ， 因 此 应 用 也 比较 广泛 。 

kmeans 法 (К 均值 法 ) 是 麦 奎 因 (Mac Queen, 1967) 提出 的 ， 这 种 算法 的 基本 思 
想 是 将 每 一 个 样品 分 配给 最 近 中 心 (均值 ) 的 类 中 ， 具 体 的 算法 至 少 包 括 以 下 三 个 步骤 ; 

(1) 将 所 有 的 样品 分 成 大 个 初始 类 。 

(2) 通过 欧 氏 距离 将 某 个 样品 划 入 离 中 心 最 近 的 类 中 ， 并 对 获得 样品 与 失去 样品 的 
类 重新 计算 中 心 坐 标 。 

(3) 重复 步骤 (2) ， 直 到 所 有 的 样品 都 不 能 再 分 配 为 止 。 
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kmeans 法 和 系统 聚 类 法 一 样 ， 都 是 以 距离 的 远近 亲 玻 为 标准 进行 聚 类 的 。 但 是 两 者 
的 不 同 之 处 也 很 明显 : 系统 聚 类 对 不 同 的 类 数 产生 一 系列 的 聚 类 结果 ， 而 人 均值 法 只 能 
产生 指定 类 数 的 聚 类 结果 。 具 体 类 数 的 确定 ， 离 不 开 实践 经 验 的 积累 。 有 时 也 可 借助 系 
统 聚 类 法 ， 以 一 部 分 样本 为 对 象 进行 聚 类 ， 其 结果 作为 K 均值 法 确定 类 数 的 参考 。 


7.4.2 kmeans 聚 类 的 原理 与 计算 


kmeans 算法 以 大 为 参数 ， 把 个 对 象 分 为 下 个 聚 类 ， 以 使 聚 类 内 具有 较 高 的 相似 度 ， 
而 聚 类 间 的 相似 度 较 低 。 相 似 度 的 计算 是 根据 一 个 聚 类 中 对 象 的 均值 来 进行 的 。kmeans 
算法 的 处 理 流程 如 下 : 首先 ， 随 机 地 选择 个 对 象 ， 每 个 对 象 初始 地 代表 了 一 个 簇 的 平 
均值 或 中 心 。 对 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 聚 类 中 心 的 距离 将 其 赋 给 最 近 的 徐 。 然 
后 重新 计算 每 个 化 的 平均 值 作为 聚 类 中 心 进行 聚 类 。 这 个 过 程 不 断 重复 ， 直 到 准则 函数 
收敛 。 通 常 ， 采 用 平方 误差 准则 ， 其 定义 如 下 : 


E = XO -m) 

Ж, E 为 数据 中 所 有 对 象 与 相应 聚 类 中 心 的 均 方 益 之 和 ，P 为 代表 对 象 空间 中 的 一 
个 点 ，m; 为 类 C. 的 均值 (р 和 m; 均 是 多 维 的 ) 。 

该 式 所 示 上 肾 类 标准 旨 在 使 所 有 获得 的 聚 类 有 以 
下 特点 : 各 类 本 身 尽 可 能 地 紧凑 ， 而 各 类 之 间 尽 可 
能 地 分 开 。kmeans 迭代 图 如 右 图 所 示 。 

根据 聚 类 中 的 均值 进行 聚 类 划分 的 kmeans 算 
法 如 下 。 

(1) 从 个 数据 对 象 中 取 任 意 必 个 对 象 作为 初 
始 簇 中 心 。 

(2) 循环 下 述 流程 (3) 到 (4) ， 直 到 每 个 聚 类 不 再 发 生变 化 为 止 。 

(3) 根据 每 个 簇 中 对 象 的 均值 (中 心 对 象 )， 计 算 每 个 对 象 与 这 些 中 心 对 象 的 距离 ， 
并 根据 最 小 距离 重新 对 相应 对 象 进行 划分 。 

(4) 重新 计算 每 个 (有 变化 ) 簇 的 均值 。 

快速 聚 类 函数 kmeans( ) 的 用 法 


+ 一 O 一 A 


kmeans(x, centers, ，… ) 
x 为 数据 矩阵 或 数据 框 
centers 为 聚 类 数 或 初始 聚 类 中 心 


【 例 7 -3】kmeans 算法 的 R 语言 实现 及 模拟 分 析 。 

本 例 模拟 正 态 随 机 变量 x ~ N(u,o2 ) ç 

(1) 首先 ， 用 R 模拟 1 000 个 均值 为 0、 标 准 差 为 0.3 的 正 态 分 布 随机 数据 ， 再 把 这 
些 随机 数 转 化 为 10 个 变量 、100 个 对 象 的 矩阵 ;其 次 ， 用 同样 的 方法 模拟 1 000 个 均值 
为 1、 标 准 差 为 0.3 的 正 态 分 布 随机 数 ， 再 转化 为 10 个 变量 、100 个 对 象 的 矩阵 ;再 次 ， 
把 这 两 个 矩阵 合并 为 10 个 变量 200 个 样本 的 数据 矩阵 ; 最后， 利用 kmeans 聚 类 法 将 其 
聚 成 两 类 ， 观 察 其 聚 类 效果 如 何 。R 程序 如 下 : 


和 


at 均值 0 ,标准 差 为 0. 3 的 100 x 10 的 正 态 随机 和 矩阵 

: > xl = matrix( rnorm( 1000 , mean =0,sd =0. 3) ,ncol = 10) 
:# 均值 1 ,标准 差 为 0. 3 的 100 x 10 的 正 态 随机 和 矩阵 

> х2 = matrix( rnorm( 1000 ,mean =1,sd =0.3) ,ncol = 10) 
i > x =rbind( xl ,x2) 


| > H. clust( x," euclidean” ," complete" ) 


complete 


w^ 


> cl <- kmeans( x, 2) 
kmeans clustering with 2 clusters of sizes 100, 100 
Cluster means: 
[.1] [ ,2] [ ,3] [ ,4] [ ,5] 
1 0.99734 1. 012673 1.01612 1. 025570 1. 0038 
2 -0.04428 -0.005132 0.03701 – 0. 007252 0. 0366 
[ ,6] Gat] [8] [ .9] [ ,10] 
1 1.00189 0. 98595 0. 98264 0. 97644 0. 98205 
2 -0.01511 0.03126 -0. 03228 0. 03304 – 0. 01821 
Clustering vector: 
[11]12242222222222122221222221222123 
[30] 222222222222124222211212221211122123 
I1959|222222222222222222212212212123 
[88|2222221222222211114111111111111 
[LIL 
[146]11111111111111111111111111111 
[E511 12ET11131111131311111111113 
Within cluster sum of squares by cluster: 
[1] 90.9 87.9 
Available components : 


[1] "cluster" "centers" — "withinss" "size 


baw -a 
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:> pchl = rep( "1" ,1000) 
> peh2 = rep( "2" ,1000) 
'> plot(x, col =cl$cluster,pch = c(pchl , pch2) ‚сех =0. 7) 
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:> points( cl $centers, col 3, pch =" ж", сех 23) 


从 聚 类 结果 来 看 ，kmeans 聚 类 方法 可 以 准确 地 把 均值 为 0 和 均值 为 1 的 两 类 数据 时 
类 开 。 图 中 的 “x*” 分 别 是 两 类 的 聚 类 中 心 。 

(2) 为 了 显示 kmeans 方法 对 大 样本 数据 的 优势 ， 我 们 再 模拟 10 000 个 均值 为 0、 标 
准 差 为 0.3 的 正 态 分 布 随 机 数据 ， 再 把 这 些 随机 数 转化 为 10 个 变量 、1 000 个 对 象 的 矩 
阵 ， 然 后 再 用 同样 的 方法 模拟 10 000 个 均值 为 1、 标准 差 为 0.3 的 正 态 分 布 随机 数 ， 再 
转化 为 10 个 变量 、1 000 个 对 象 的 矩阵 ， 然 后 把 这 两 个 矩阵 合并 为 10 个 变量 、2 000 个 
ааа 然后 利用 kmeans 聚 类 方法 聚 成 两 类 ， 观 察 其 聚 类 效果 如 何 。 

> xl - matrix( morm( 1000, mean =0,sd =0. 3) ,ncol = 10) | 

# 均值 1 ,标准 差 为 0.3 的 100 x 10 的 正 态 随机 矩阵 | 

| > x2 = matrix ( morm( 1000 , mean = 1 ,sd =0.3) ,ncol=10) 

;> x =rbind(xl,x2) 

> cl <- kmeans( x, 2) i 

:> pchl = rep( " 1" ,1000) | 

i» pch2 = rep( "2" ,1000) 

p pots, col = cl $cluster, pe ms E сех z0. 7) 
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和 人 mt 


x[.2] 


TIPP 


从 聚 类 结果 来 看 ，kmeans 聚 类 方法 可 以 完全 准确 地 把 均值 为 0 和 均值 为 1 的 两 类 数 
据 聚 类 开 。 图 中 的 “* ”分 别 是 两 类 的 聚 类 中 心 。 这 里 请 不 要 使 用 系统 聚 类 法 ， 因 为 有 
可 能 电脑 会 死机 。 


7.5 ” 聚 类 分 析 的 一 些 问题 


1. 系统 聚 类 分 析 的 一 些 特点 

系统 聚 类 分 析 方 法 与 传统 的 统计 分 组 方法 相 比 具有 如 下 特点 : 

(1) 综合 性 : 聚 类 分 析 可 以 利用 多 个 变量 的 信息 对 样品 进行 分 类 ， 克 服 单一 指标 分 
类 的 弊端 。 

(2) 形象 性 : 聚 类 分 析 可 以 利用 聚 类 网 直观 地 表现 其 分 类 形态 及 类 与 类 之 间 的 内 在 关系 。 

(3) 客观 性 : 聚 类 分 析 的 结果 克服 了 主观 因素 ， 比 传统 分 类 方法 更 客观 、 细 致 、 全 
面 和 合理 。 

2. 关于 kmeans 算法 

kmeans 算法 只 有 在 类 的 平均 值 被 定义 的 情况 下 才能 使 用 ， 这 可 能 不 适用 于 某 些 应 用 。 
例如 ， 涉 及 有 分 类 属性 的 数据 ， 要 求 用 户 必须 事先 给 出 (要 生成 的 类 的 数目 )。 这 可 以 
算是 该 方法 的 一 个 缺点 。 另 外 ，kmeans 算法 不 适合 于 分 析 非 凸 面 形状 的 类 ， 或 者 大 小 差 
别 很 大 的 类 。 而 且 ， 它 对 于 “噪声 ”和 孤立 点 数据 是 敏感 的 ， 少 量 的 该 类 数据 能 够 对 均 
值 产 生 极 大 的 影响 。 

kmeans 算法 有 很 多 变种 。 它 们 可 能 在 初始 大 个 平均 值 的 选择 、 相 异 度 的 计算 和 计算 
聚 类 平均 值 的 策略 上 有 所 不 同 。 经 常会 产生 较 好 的 聚 类 结果 的 一 个 有 趣 策略 是 : 首先 采 
用 层次 的 凝聚 算法 ， 决 定 结果 类 的 数目 ， 并 找到 一 个 初始 的 聚 类 ， 然 后 用 迭代 重新 定位 
来 改进 聚 类 结果 。 

3. 关于 变量 变换 

在 实际 问题 中 ， 不 同 的 变量 一 般 取 的 量 纲 不 同 ， 为 了 使 不 同 的 量 纲 也 能 放 在 一 起 比 
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£, 通常 需 要 对 数据 作 一 些 变 换 ， 有 时 即使 变量 用 的 是 同一 量 纲 ， 为 了 使 数据 更 适用 某 
种 数学 模型 ， 也 需要 对 数据 进行 变换 ， 常用 的 变换 有 : 

(1) 平移 变换 : 将 某 一 个 指标 的 数据 同 减 去 一 个 数 ， 一 般 是 减 去 均值 。 

(2) 极 差 变换 : 将 某 一 个 指标 的 数据 同 除 以 该 指标 的 极 差 。 

(3) 标准 差 变 换 : 将 某 一 个 指标 的 数据 同 除 以 该 指标 的 标准 差 。 

(4) 主 成 分 变换 : 将 数据 用 它们 的 主 成 分 代替 ， 有 时 为 了 简化 ， 只 取 前 几 个 主 成 分 ， 
舍 去 次 要 的 主 成 分 。 

(5) 对 数 变 换 : 将 数据 取 对 数 ， 当 数据 之 间 数 量 级 相差 较 大 时 常 采用 这 一 变换 。 

以 上 的 变换 有 时 同时 采用 ， 例 如 将 数据 标准 化 ， 就 是 先 作 变 换 〈1) ， 后 作 变 换 (3). 

4. 聚 类 分 析 总 结 

(1) 聚 类 分 析 根 据 分 类 对 象 不 同 分 为 Q 型 和 R 型 聚 类 分 析 。 

(2) 通常 测量 变量 有 三 种 尺度 : 间隔 尺度 、 有 序 尺度 和 名 义 尺度 ,其 中 间隔 尺度 使 
用 得 最 多 ， 本 章 主要 讨论 这 种 尺度 。 

(3) 距离 和 相似 系数 这 两 个 概念 反映 了 样品 (或 变量 ) 之 间 的 相似 程度 。 相 似 程 度 
越 高 ， 一 般 两 个 样品 (或 变量 ) 间 的 距离 就 越 小 或 相似 系数 的 绝对 值 就 越 大 ; 反之 ， 相 
似 程度 越 低 ， 一 般 两 个 样品 (或 变量 ) 间 的 距离 就 越 大 或 相似 系数 的 绝对 值 就 越 小 。 

(4) 系统 聚 类 法 是 最 常用 的 一 种 聚 类 方法 ， 篆 用 的 系统 聚 类 方法 有 最 短 距 离 法 、 最 
长 距离 法 、 中 间距 离 法 、 类 平均 法 、 重 心 法 、 离 差 平 方 和 法 等 。 


案例 分 析 : 全 国 区 域 经 济 的 聚 类 分 析 及 R 操作 


为 了 对 全 国 区 域 经 济 进行 分 析 评 价 ， 今 收集 1998 年 16 个 反映 国民 经 济 发 展 的 指标 : 
X,—— A35 СОР (26); 

X, 一 一 第 三 产业 占 GDP 比重 (96); 

一 一 商品 出 口 依存 度 (96) ; 

XX 一 一 研究 与 开发 经 费 占 GDP 比重 (96); 

XX 一 一 工业 化 进程 ; 

X 一 一 人 均 财 政教 育 经 费 (Jú); 

X1 一 一 人 口上 自然 增长 率 (%); 

Xs 一 一 城镇 人 口 比 重 (96); 

Xs 一 一 信息 化 综合 指数 (%); 

Xo 一 一 城镇 居民 恩格尔 系数 (%); 

Xl 一 一 城镇 人 均 房屋 使 用 面积 (平方 米 ); 

Xis 一 一 平均 每 名 医生 服务 人 口 CA); 

Xs 一 一 “三 废 ” 人 处 理 治理 达标 率 (976); 

Xu 一 一 耕地 垦殖 指数 (%); 

Xs 一 一 城市 人 均 公 共 绿 地 面积 (平方 米 ) ; 

6 一 一 污染 治理 项 目 投资 占 GDP 比重 (96), 

应 用 系统 聚 类 法 对 区 域 经 济 进行 综合 分 析 。 下 表 是 1998 年 全 国 区 域 经 济 综 合 评价 指标 。 
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O Y 


ме 


| `C p! Е | F 9 H I |J | | L Í W N | 0 I! P | Q 7 
xz x3 X4 X5 x6 к: ХВ хэ 110 хи X12 кїз X14 X15 X16 3 
2 $66 433 3.39 0.8913 335 0.7 5&9 683 041 121483 20 597 238 8 0.177? i 
3 41 341 i 0.909 234 34 э 549 04 12388 39 895 зат 406 0.1896 | 
4 325 61 0.16 0. 4756 83 693 186 329 04 1286 6⁄2 794 347 56 01161 | 
5 山西 5040 336 46 035 039 9i 992 ;41 31) 04 119 ul 61.5 243 38 0.2179 
6 AR 58 мл 37 0.25 0.41 W 8.23 31$ 29 0.41 1207 4⁄1 76.2 46 $9 0185 
7 Це 993335 3585 172 039 06797 349 458 448 394 04 11.65 44 314 226 588 0.1446 ! 
8 WR 56 Mı 4 0.64 0.39345 106 605 425 333 046 11.77 шз 797 211 579 0.096 і 
жэп за 305 27 024 0.69 7 636 | 417 329 044 1145 496 3841 198 645 0.2116 | 
KAR 28255 418 38.6 1.47 11922 48; -L8 662 6&1 051 139 791 924 50 2 0. 1703 : 
йй 10021 353 18 0.42 06603 125 413 269 37 0.45 1472 69 $68 43.4 71.3 9.224 | 
WI i245 з 18 0.19 0.7 121 482 204 434 043 1986 63 BL9 162 693 01384 
*m 456 29 44 023 0410 6 9.2 1$9 254 05 144 90 851 307 6.68 0.1113 | 
чиа 10369 383 ME 011 0672 141 533 196 408 052 1696 785 71.1 9.9 65 00861 | 
йй «4 37 46 021 0405 6; $5 212 28 049 1331 791 782 138 565 0.0499 
山东 52 348 2 6.21 0.5828 101 5. 46 26 3.4 04 1460 65 837 446 655 0242 s, 
аш SO 402 292 23 032 0.3873 2 1.8 17.6 278 0.43 12.13 71 $5.4 425 (5&4 0.1253 | 
ә 6300 325 3.5 07 0.5716 7 $.88 2715 288 044 1429 385 79.1 181 78 0.0965 | 
WW 4253 — 311959 13 03 0405 61 521 192 261 04 1313 09 02 155 478 0.0518 i 
广东 11143 369 791 0.31 0.7674 154 1.9 31 324 044 17.68 0680 771 13 8.33 0.0598 | 
га 4 м2 78 0.23 03789 д 90 177 2⁄8 04 1424 779 12.3 11 7.95 0.0901 { 
ат 6c 42 144 029 0.3504 105 1292 247 31 0.55 1517 579 8L8 127 11.26 00327 f 
重庆 4⁄4 381 3 037; 0 4165 58 8551 201 295 045 1217 mM 711.1 194 2.29 0.0692 ] 
QM 4339 31.1 2.1 1.00 0.395; 58 7,48 1727 207 045 1160] 60 ) 666 93 416 0.07 | 
е+ 247) 298 38 02 03014 6 14.26 141 234 048 1100 51 25 1058 7.63 0.1851 i 
云南 05 31.1 &2 042 05916 121 121 146 286 04 1136 797 603 1.6 184 0119 | 
йй 36 435 44 _ 030 038 20 159 135 138 053 1897. 3⁄4 Mı 02 24 0 1 
RH 3834 384 7.1 235 0.3745 7 71.13 218 30 04 1063. 81 786 165 н OVN i 
ER 5 328 13 097 0.3376 7: 10.04 187 283 046 11.2 663 76. 4 2.1 35 0.2453 
LES т 409 39 0.45 0.4552 119 1448 264 WE 045 $72 803 7195 08 3,02 0.0365 
+E 2 37.3 76 047 03986 111 121085 283 356 042 11.2 459 72.5 122 3.85 0. 2607 
327 #Ш 6729 354 55 0.24 0.5737 137 1281 3543 2308 045 12306 06 703 2 8579 0.7305 
33 | 
= * м^ сазе2 Г сазе3 / сазе+ / сазе$ / сазеб ‚сазе cases / сазе? / сазе10 / case11 /case12/ [ge FT We Ye › | 


二 、R 语言 操作 
1. 调 入 数据 


选中 case7 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case7 = read. table( " clipboard" , 
header =T) 。 


2. 系统 聚 类 
在 该 系统 聚 类 过 程 中 ， 采 用 的 是 欧 氏 度量 ， 选 择 的 方法 是 ward 法 ， 考 虑 到 各 个 指标 


И, насози xia RM caseo e OIN 
> DedistiE) HERRER CaseT*read.tabie("clipboard*,header-T 
> hcehclust (D, "мага" ) tara t w 5 

> cbind(nc$merge,5csre,ighr) [E £54. | 


L1) t2] 3] 

(1,] ~ -23 1 

(2,1 -14 -20 1. 
[3,] -22 1 1.636 

(4,1 -30 -3 1. 
[$,] -10 -1$ 1.987 
[6.] 3 -17 2.048 
[?,1 -&  -8 2.096 
[$,] -12 -16 2.157 
[9,) -$ -7 2.236 
{10,) -27 -28 2.408 
[11,] 2 3 2.537 
(12,1 -24 -25 2.540 
(13,] 6 9 2.855 
[14,] -11 -13 3.140 


rect.hciust (hc, Si 


kmeans (£, 5) 


š: UNE aC ТЧЧ ТУИ 


f 
! 
| 


{15,1 4 10 3.247 | 8 m 
(16,] т 1з 3.386 

(17,] -29 15 4.127 & 

(19,] -4 16 4.510 f 

(191 11 12 4.561 | " 

[20.1 -21 14 4.89) f = 


121, ] -2 -9 4.967 


і 
{22,) -19 20 5.452 | ° 
[23,1 & 19 5.475 id = 
(24,] 17 216 6.101 | 2 
{25,] -1 21 6.814 - š 
126, ) S 24 7.518 | b | 
[27,] -26 22 10.099 с > 
[28,] 23 26 11.617 кч Се 
[29,} 27 28 14.405 = и 
130,1 25 29 25.776 FL 
> par(mar=c(5,4,2,1) cCex=0.7?5) 
> plot (hc) кожа 0 
> 
> | | 


- D | 
* _ . a | тма С. want) ] 
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see 了 
4 在 Rcode .xl1s 的 表单 caseT 中 造 中 数据 并 复制 
Chse7Teread.table("clipboard*,headerwT) 


x2 x x 
2.4939 2.26332 1.5358 1.91889 2.2239 2.5590 -1.7613 
0.5326 -0.09411 1.0865 -0.34582 20.6968 20.054? -0.4530 
-0.3945 -0.16064 -0.4055 -0.06044 -0.7514 -0.2253 0.3132 
-0.6942 1.20990 -0.5008 -0.30418 -0.7647 0,9462 
-0.4921 -0.49357 -0.4570 -0.25325 -0.5731 -0.5537 0.2071 
x5 х9 x10 X11 xi2 x13 x14 
1.8981 2.4419 0.01144 0.1603 -1.8348 1.222695 1.34297 


plot (hc) 
| rect .hclust (hc, ke5) 


1.0172 -1.6754 1.04982 2.21777 -0.5228 -3.543403 -1.40549 
-0.6535 -0.5341 0.21084 -0.1073 0.8043 -0.213089 -0.0318? 
x15 


c 

H 

2 

3 

4 

5 

1 

2 

3 0.4673 -0.2070 -0.29624 -0.8402 -0.6098 20.007432 -0.45053 
. 

5 

1 -0.34531 0.5487 
2 

3 

4 

s 


0.13199 0.4 
0.38731 0.5186 
4.90169 -1.763 
-0.05439 -0.6010 
Clustering vector: 
北京 яа "mi um AR 
i 1 5 3 
ив 浙江 * йш us 
2 2 5 5 
广东 гв жа gk U' 
2 5 5 5 
u we тя ғи 
3 3 3 了 


f squares by cius 
11] 35.22 40.95 47.28 0.00 54.70 
(between 5S / total SS = 62.9%) 


Available components: 

tii "cluster" "cente 

[5] *tot.withinss" *betweenss" 
> 


西藏 广东 海南 浙江 福建 安徽 河南 江西 广西 重庆 
湖南 四川 贵州 云南 江苏 山东 青海 宁夏 新 疆 陕西 
甘肃 山西 辽宁 黑龙 江 河北 湖北 内 蒙古 吉林 


安徽 河南 江西 广西 重庆 湖南 四 川 贵州 
云南 江苏 山东 青海 宁夏 新 疆 陕西 甘肃 


山西 辽宁 黑龙 江 河北 湖北 内 蒙古 吉林 


江西 | 江苏 ШЖ 青海 宁夏 新 疆 
湖南 | 陕西 甘肃 山西 辽宁 黑龙 
四 川 贵州 云南 | 江 河北 湖北 内 蒙古 吉林 


* 西藏 情况 特殊 ， 可 单独 分 为 一 类 。 


从 上 面 的 聚 类 图 和 聚 类 结果 表 可 以 看 到 ， 在 1998 年 以 前 我 国 的 经 济 发 展 是 不 平衡 
的 ， 综 合 经 济 实力 最 强 的 地 区 是 : 北京 、 天 津 和 上 海 。 其 次 是 沿海 经 济 开 放 地 区 : 广东 、 
海南 、 浙 江 TREE, 西藏 自治 区 的 情况 比较 特殊 ， 如 果 将 其 进一步 归 类 ， 它 可 以 和 沿海 
经 济 开放 地 区 接近 ， 主 要 原因 是 虽然 它 的 人 均 СОР 不 是 很 高 ， 但 它 在 如 城市 人 均 公 共 绿 
地 面积 (平方 米 )， 污染 治 理 项 目 投资 占 GDP 比重 (% ) 等 方面 远大 于 其 他 省 份 。 靠 近 
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上 述 地 区 的 一 些 地 区 ， 如 安徽 、 河 南 、 江 西 、 广 西 、 重 庆 、 潮 南 、 四 川 、 云 南 等 经 济 发 
展 也 较 快 。 而 西部 、 北 部 和 一 些 内 陆 省 份 ， 如 青海 、 甘 肃 、 宁 夏 、 陕 西 、 黑 龙 江 、 吉 林 、 
辽宁 、 新 疆 、 内 蒙古 经 济 比较 落后 。 而 在 1998 年 江苏 和 山东 经 济 才 刚刚 起 步 ， 但 后 来 的 
发 展 速 度 很 快 。 


案例 分 析 题 
从 给 定 的 题目 出 发 ， 按 内 容 提 要 、 指 标 选 取 、 数 据 搜集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 
， 研 究 世界 上 部 分 发 达 国 家 经 济 和 社会 发 展 水 平 。 
. 对 中 国 各 保险 公司 分 类 的 探讨 。 
. 对 2005 年 中 国 房 地 产 经 济 分 区 作 初 步 探讨 。 
， 按 照 城乡 居民 消费 水 平 ， 对 2005 年 我 国 31 个 省 、 市 、 自 治 区 分 类 。 
， 横 向 比较 我 国 31 个 省 、 市 、 自 治 区 2005 年 工业 的 经 济 效益 和 科技 水 平 。 
对 各 地 区 社会 总 产值 的 部 门 构成 进行 聚 类 分 析 。 
.对 我 国 31 个 省 、 市 、 自 治 区 根据 农林 牧 副 渔 各 生产 值 的 大 小 进行 分 类 。 
.从 科技 研究 与 发 展 状况 角度 对 我 国 31 А 市 、 自 治 区 进行 分 类 。 
， 聚 类 分 析 在 研究 各 国 国 际 竞争 力 中 的 应 
10. 2005 年 全 国 区 域 科技 创新 能 力 的 综合 ^" 
. 对 世界 各 国 国民 生产 总 值 部 门 构成 进行 研究 。 
12， 中 国 35 个 核心 城市 综合 竞争 力 研究 。 


iO бо м QN мл + Q мю н 


思考 练习 题 
一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 
1， 聚 类 分 析 的 基本 思想 是 什么 ? 
2. 聚 类 分 析 中 为 什么 还 提出 马 氏 距离 ? 
3. 聚 类 分 析 有 哪 几 种 类 型 ， 哪 几 种 方法 ， 聚 类 分 析 中 相似 性 度量 的 统计 指标 有 
哪些 ? 
4. 试 述 系统 聚 类 的 基本 思想 、 系 统 聚 类 中 常用 的 基本 方法 。 
5. 下 面 给 出 五 个 元 素 两 两 之 间 的 距离 ， 试 用 最 短 距 离 法 对 其 进行 聚 类 分 析 ， 画 出 聚 
类 图 ， 并 按 两 类 、 三 类 进行 分 类 。 
1 2 3 4 5 
1/0 
210 0 
313 25 O 
412 24 1 0 
5111 23 3 2 0 
6. 下 面 给 出 五 个 元 素 两 两 之 间 的 距离 ， 试 利用 最 短 距 离 法 、 最 长 距离 法 和 类 平均 法 
作出 五 个 元 素 的 谱系 聚 类 ， 画 谱系 图 并 作出 比较 。 
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L 2 2 4 35 
1/0 

24 0 
36 9 0 
41 7 10 O 


516 35 8 0 

二 、 练 习题 (计算 机 分 析 ， 发 电子 邮件 ) 

1. 为 了 比较 我 国 31 个 省 、 市 、 自 治 区 1996 年 和 2001 年 (数据 见 本 章 例 7-2) 5 
镇 居民 生活 消费 的 分 布 规律 ， 根 据 调查 资料 作 区 域 消 费 类 型 划分 ， 并 将 1996 年 和 2001 
年 的 数据 进行 对 比分 析 。 今 收集 了 八 个 反映 城镇 居民 生活 消费 结构 的 指标 (1996 年 
数据 ) : 

ХАВ (ЛИЛ); 

X,— ABE Н (ЛИЛ); 

一 一 人 均 家 庭 设备 用 品 及 服务 文 出 (元 /人 ); 

X 一 一 人 均 医疗 保健 支出 (元 /人 ); 

;一 一 人 均 交 通 和 通信 支出 (元 /人 ); 

X6 一 一 人 均 娱 乐 教育 文 化 服务 支出 (元 /人 ); 

XX1 一 一 人 均 居住 支出 (元 /人 ); 

XX, 一 一 人 均 杂 项 商品 和 服务 支出 (元 /人 )。 


Така а а а [x |x [x [x 
1 [жж [гла эз. | eon | эп. | эт. | өөлз | 6% [эзе 
[i [хт mar sea | mum | мы [55 | ese | sr [mos 
ENETRICTIETIETECCRECTRE EAE CHRTE: 
+ [щн [еб] 36249 | 20220 [мз | мэ | 3625 | 16329 | 2 
s [maç izo. 25429 | 9244 | 13630 | 12330 | aam [вое | LGP 
s [ит нөл мав [ша [эче [зи |же [зиз [эжи 
as [итэ жт wen | we ma | эти [эп [wen 
э [тиде [вз [өөп [жзг | эл. [эж | кэ [экп | 
э | иш [aooe mn [ww [кп [тел [ue [me Dn 
s. 
ИСЕ [зина [мэ [ши | mgs | этә [пыз 
CIECA nis [asor | oru [ara [oer | nsas- 
[o [mi ira | ss | ms 


— 
ы 
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(# ЕЖ) 


| [n [x [x ЕИ ЕЕ: 
EIETRICTIESCRETCHNCURETERE ТЕС 
пө ж [psn] a | sor | 207 | ars | TREE: 
20 | FF 218814 | 24690 | 344215 | 10633 | 25230 | юа | 376.00 
a | W 22713 | wo? | maa | 12595 | 035 | 36535 | 20012 | E: 
| ат [19.34 мело | ове | 1031 20830 з 
125.23 148. 95 
пе 55 РАКТА 


注 : 1996 年 重庆 还 没有 被 划分 为 直辖 市 。 资 料 来 源 :《1997 年 中 国 统计 年 鉴 》。 


т} 
# 
B 
mA 
Q2 
о 
— 
Š 
N 
- 
В 
OA 
po 
° 
96 


试 对 该 数据 进行 聚 类 分 析 。 
2. 按 例 7 -3 模拟 方法 对 m =20, 50, 100, 1000, 10 000 分 别 进 行 kmeans 聚 类 分 析 。 
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【 目的 要 求 】 了解 主 成 分 分 析 的 统计 思想 和 实际 意义 ， 以 及 它 的 数学 模型 和 在 二 维 空 
间 上 的 几何 解释 ; 掌握 主 成 分 的 推导 步骤 及 其 重要 的 基本 性 质 ; 能 够 利用 计算 软件 ， 自 
己 编程 解决 实际 问题 并 给 出 分 析 报 告 。 

【教学 内 容 】 主 成 分 分 析 的 目的 和 意义 ; 主 成 分 分 析 的 数学 模型 及 几何 解释 ; 主 成 分 
的 推导 及 基本 性 质 ; 计算 程序 中 有 关 主 成 分 分 析 的 算法 基础 ; 主 成 分 分 析 的 基本 步骤 以 
及 实证 分 析 。 


主 成 分 分 析 (principal component analysis， 简 记 PCA) 是 将 多 指标 化 为 少数 几 个 综合 
指标 的 一 种 统计 分 析 方 法 ， 是 由 Pearson (1901) 提出 ， 后 来 被 Hotelling (1933) 发 展 起 
来 的 。 主 成 分 分 析 是 通过 降 维 技术 把 多 个 变量 化 为 少数 几 个 主 成 分 的 方法 ， 这 些 主 成 分 
保留 原始 变量 的 绝 大 部 分 信息 ， 它 们 通常 表示 为 原始 变量 的 线性 组 合 。 通 过 主 成 分 分 析 ， 
可 以 从 事物 错综复杂 的 关系 中 找 出 一 些 主要 成 分 ， 从 而 能 有 效 利 用 大 量 统计 数据 进行 定 
量 分 析 ， 揭 示 变 量 之 间 的 内 在 关系 ， 得 到 一 些 对 事物 特征 及 其 发 展 规律 的 深层 次 的 启发 ， 
把 研究 工作 引 向 深入 。 

每 当 学 年 要 结束 时 ， 学 校 老 师 总 是 要 将 学 生 的 成 绩 作 一 番 评 估 。 如 何 评估 呢 ? 以 小 
学 为 例 ， 一 般 学 校 的 科目 有 语文 、 数 学 、 自 然 、 历 史 等 。 每 个 学 生 的 成 绩 是 按 各 科 成 绩 
分 别 加 起 来 的 ， 如 将 语文 分 数 、 数 学 分 数 、 自 然 分 数 和 历史 分 数 都 加 起 来 作为 总 成 绩 。 
由 于 各 门 课程 在 总 分 中 占 的 比重 不 全 相同 ， 单 纯 地 把 它们 相 加 一 般 是 不 行 的 。 依 照 各 科 
考试 的 内 容 ， 各 科目 应 当 以 加 权 比 例 来 计算 分 数 ， 怎 么 做 呢 ? 可 以 用 aa, a, as 等 系数 
(ТЯ) 大 小 来 作为 加 权 的 依据 。 例 如 ，a, x 语 文 +a, x 数学 +a; x 自然 +as x 历史 ， 即 
等 于 加 权 过 后 的 总 成 绩 。 这 种 方法 实际 上 也 是 主 成 分 分 析 的 一 种 。 

假定 你 是 一 个 公司 的 财务 经 理 ， 掌 握 了 公司 的 所 有 数据 ， 比 如 固定 资产 、 流 动 资金 、 
每 一 笔 借贷 的 数额 和 期 限 、 各 种 税 费 、 工 资 支出 、 原 料 消 耗 、 产 值 、 利 润 、 折 旧 、 职 工 
人 人数、 职工 的 分 工 和 教育 程度 ， 等 等 。 如 果 让 你 向 上 级 介绍 公司 状况 ， 你 能 够 把 这 些 指 
标 和 数字 都 原封 不 动 地 摆 出 去 吗 ? 当然 不 能 。 你 必须 对 各 个 方面 进行 高 度 概括 ， 用 一 两 
个 指标 简单 明了 地 把 情况 说 清楚 。 其 实 ， 每 个 人 都 会 遇 到 有 很 多 变量 的 数据 ， 比 如 ， 全 
国 或 各 个 地 区 带 有 许多 经 济 和 管理 变量 的 数据 ; 各 个 学 校 的 研究 、 教 学 等 各 种 变量 的 数 
据 等 。 这 些 数 据 的 共同 特点 是 变量 很 多 ， 在 如 此 多 的 变量 之 中 ， 有 很 多 是 相关 的 。 人 们 
希望 能 够 找 出 其 中 的 少数 “代表 ”来 对 它们 进行 描述 。 本 章 就 是 研究 把 变量 维 数 降低 ， 
以 便于 描述 、 理 解 和 分 析 的 方法 一 一 主 成 分 分 析 法 。 


8.1 主 成 分 分 析 的 直观 解释 


主 成 分 分 析 就 是 一 种 通过 降 维 技术 把 多 个 指标 化 为 少数 几 个 综合 指标 的 统计 分 析 方 
法 。 其 基本 思想 是 : 设法 将 原来 众多 具有 一 定 相 关 性 的 指标 ， 重 新 组 合成 一 组 新 的 相互 
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无 关 的 综合 指标 ， 并 代替 原来 的 指标 。 数 学 上 的 处 理 就 是 对 原来 的 p 个 指标 作 线 性 组 合 ， 
作为 新 的 指标 。 第 一 个 线性 组 合 ， 即 第 一 个 综合 指标 记 为 y, ， 为 了 使 该 线性 组 合 具 有 唯 
一 性 ， 要 求 在 所 有 的 线性 组 合 中 ，y, 的 方差 最 大 ， 即 Var (у) 最 大 ， 它 所 包含 的 信息 最 
多 。 如 果 第 一 个 主 成 分 不 足以 代表 原来 p 个 指标 的 所 有 信息 ， 再 考虑 选取 第 二 个 主 成 分 
n, ЕЖ y 已 有 的 信息 不 出 现在 y, 中 ， 即 Coly ,7 ) =O, 

上 面 所 述 的 成 绩 数据 是 四 维 的 ， 也 就 是 说 ， 每 个 观测 值 是 四 维 空间 中 的 一 个 点 。 每 
一 维 代表 了 一 个 变量 。 用 少数 综合 变量 表示 原先 的 变量 ， 就 是 一 个 降 维 的 过 程 。 为 了 直 
观 地 描述 这 个 降 维 的 过 程 ， 先 假定 数据 只 是 两 个 变量 的 观测 值 ， 即 二 维 数据 。 

主 成 分 分 析 在 变量 降 维 方面 扮演 着 很 重要 的 角色 ， 
是 进行 多 变量 综合 评价 的 有 力 工 具 。 从 图 8 -1 可 见 ， 
图 中 变量 和 成 分 间 的 关系 x, 和 x, 是 沿 着 一 定 轨迹 分 布 的 
数据 ， 单 独 选 择 x 或 *, 都 会 丧失 较 多 的 原始 信息 。 作 正 
Ж (Н) 旋转 ,得 到 新 的 坐标 轴 y A yro DEFE JE A 
据 主要 是 沿 ”方向 散布 ， 在 y, 方 向 的 离散 程度 很 低 ， 男 
外 ，y! 和 yy, 是 互相 垂直 的 ， 表 明 它 们 互 不 相关 。 即 使 只 
是 单独 提取 变量 y 而 放弃 变量 yx ， 丧 失 的 信息 也 是 很 微 
小 的 。 通 常 把 y 称 为 第 一 主 成 分 ，y, 称 为 第 二 主 成 分 。 图 8 -1 变量 与 主 成 分 的 关系 图 
主 成 分 分 析 的 关键 是 要 寻找 一 组 相互 正 交 的 回 量 ， 原 变 
量 乘 上 该 组 正 交 的 向 量 后 能 得 到 新 变量 组 。 

如 果 这 两 个 变量 分 别 由 横 轴 和 纵 轴 表示 ， 每 个 观测 值 都 有 相应 于 这 两 个 坐标 轴 的 两 
个 坐标 值 ， 也 就 是 这 个 二 维 坐 标 系 中 的 一 个 点 。 如 果 这 些 数 据点 形成 一 个 有 椭圆 形 轮廓 
的 点 阵 ， 那 么 这 个 椭圆 就 有 一 个 长 轴 和 一 个 短 轴 。 在 短 轴 方向 上 上， 数据 变化 较 小 。 如 果 
两 个 坐标 轴 和 椭圆 的 长 短 轴 平 行 ， 那 么 代表 长 轴 的 变量 就 描述 了 数据 的 主要 变化 ， 而 代 
表 短 轴 的 变量 就 描述 了 数据 的 次 要 变化 。 

但 是 ， 坐 标 轴 通常 并 不 和 椭圆 的 长 短 轴 平 行 。 因 此 ， 需 要 寻找 椭圆 的 长 短 轴 ， 并 进 
行 变换 ， 使 得 新 变量 和 椭圆 的 长 短 轴 平行 。 如 果 长 轴 变 量 代 表 了 数据 包含 的 大 部 分 信息 ， 
就 用 该 变量 代替 原先 的 两 个 变量 ( 舍 去 次 要 的 短 轴 变 量 ) ， 降 维 就 完成 了 。 在 极端 的 情况 
下 ， 即 短 轴 如 果 退 化 成 一 点 ， 那 么 只 有 长 轴 变 量 才 能 够 解释 这 些 点 的 变化 ， 这 样 ， 由 二 
维 到 一 维 的 降 维 就 自然 完成 了 。 图 8 -1 就 是 一 个 这 样 的 椭圆 的 示意 图 。 椭 圆 的 长 短 轴 相 
差 得 越 大 ， 降 维 也 就 越 有 道理 。 

以 x! 和 %, 表 示 图 中 的 横 轴 和 纵 轴 ,将 x, 和 x%, 同 时 按 逆 时 针 方 向 旋转 Ө 度 ， 得 到 新 的 
坐标 轴 y, 和 y,，y, 和 yy, 是 两 个 新 变量 ， 其 旋转 公式 为 : 

P = соѕбх, + ѕіпбх, 


y;  —sinOx, + cosÓx; 


新 变量 y, A y, E: IH AE Bt x! 和 zx, 的 线性 组 合 ， 其 矩阵 形式 为 : 
yi cosÜ  sinQ][x, 
И -| — sing s La. kao 
Asp, ОЛЕР ВЕ, CEEE, BD UU'= 1。 
多 维 变量 的 情况 和 二 维 类 似 ， 也 有 高 维 的 椭 球 ， 只 不 过 无 法 直观 地 看 见 罢了 。 首 先 
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把 高 维 椭 球 的 各 个 主轴 找 出 来 ， 再 用 代表 大 多 数 数据 信息 的 最 长 的 几 个 轴 作 为 新 变量 ， 
这 样 ， 主 成 分 分 析 就 基本 完成 了 。 注 意 ， 和 二 维 情况 类 似 ， 高 维 椭 球 的 主轴 也 是 互相 垂 
直 的 。 这 些 互相 正 交 的 新 变量 是 原先 变量 的 线性 组 合 ， 叫 主 成 分 。 
【 例 8 -1】 续 例 2 -2， 根 据 12 名 学 生 的 生长 发 育 指标 数据 作 变 量 与 主 成 分 的 关 
系 图 。 
:> xl =e(171,175,159,155,152,158,154,164,168,166,159,164) О 
i> х2 =c(57,64,41 ,38,35,44,41 ,51,57 ,49,47,46) 
L plot( xl 32 ,xlim = c( 145,180) „ylim 2 (25,75) ) : 
:> lines( e( 150,178) ,c(33,66) ) ;text( 180,68," y1" ) | 
i> lines( c( 161,168) ,0(60,38) ) ;text( 161,63," y2" ) : 


145 150 155 160 165 170 175 180 | 


Аааа s ass a s asss ш ааа ааа аа et СУРУН УЕОНЫРЕБОНРОНИЕРАНОРЕОБЕУБОРЫЛРО РРО уВуРНЕРЫ ЕРОН КОШуБИАРНАЕ 


正如 二 维 椭圆 有 两 个 主轴 、 三 维 椭 球 有 三 个 主轴 一 样 ， 有 几 个 变量 ， 就 有 几 个 主 成 
人 分。 当然， 选择 越 少 的 主 成 分 ， 降 维 就 越 好 。 而 其 标准 就 是 这 些 被 选 的 主 成 分 所 代表 的 
主轴 的 长 度 之 和 占 了 主轴 长 度 总 和 的 大 部 分 。 有 些 文献 建议 ， 所 选 的 主轴 总 长 度 占 所 有 
主轴 长 度 之 和 的 大 约 85% 即 可 ， 其 实 ， 这 只 是 一 个 大 体 的 说 法 ， 具 体 选 几 个 ， 要 看 实际 
情况 而 定 。 但 如 果 所 有 涉及 的 变量 都 不 那么 相关 ， 就 很 难 降 维 ， 这 些 不 相关 的 变量 就 只 
有 自己 代表 自己 了 。 


8.2 主 成 分 分 析 的 性 质 


1. 主 成 分 的 一 些 说 明 

简 而 言 之 ， 对 于 某 一 问题 可 以 同时 考虑 好 几 个 变量 时 ， 我 们 并 不 对 这 些 变量 个 别处 
理 ， 而 是 将 它们 综合 起 来 处 理 ， 这 就 是 主 成 分 分 析 。 

实际 上 ， 主 成 分 分 析 的 主要 目的 是 用 较 少 的 变量 去 解释 原来 资料 中 的 大 部 分 变异 ， 
亦 即 期 望 能 将 手中 许多 相关 性 很 高 的 变量 转化 成 彼此 互相 独立 的 变量 ,能 由 其 中 选取 比 
原始 变量 个 数 少 ， 且 能 解释 大 部 分 资料 之 变异 的 几 个 新 变量 ， 也 就 是 所 谓 的 主 成 分 ， 而 
这 几 个 主 成 分 也 就 成 为 我 们 用 来 解释 资料 的 综合 性 指标 。 

而 为 什么 要 用 解释 变异 的 能 力 来 寻找 主 成 分 呢 ? 以 考试 为 例 ， 考 试 的 目的 是 希望 能 
评估 出 学 生 的 学 习 成 效 及 能 力 程度 如 何 ， 当 我 们 只 要 看 学 生 的 学 习 程 度 如 何 时 ， 可 借 由 
一 份 民 好 的 试卷 来 测验 出 学 生 的 学 习 程度 分 布 状况 。 可 是 ， 怎 样 才 是 一 份 良 好 的 试卷 呢 ? 
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当然 是 学 习 程 度 好 的 学 生 所 考 的 成 绩 较 高 ， 而 学 习 程 度 差 的 学 生成 绩 就 较 低 ， 亦 即 试卷 
能 真正 反映 出 学 生 学 习 程 度 差 异 的 真实 分 布 状况。 就 统计 上 而 言 ， 即 是 此 份 考 卷 的 分 数 
能 产生 愈 大 的 变异 数 (方差 ) ， 愈 能 够 反映 学 生 彼此 程度 之 差异 。 而 在 上 例 中 ， 当 我 们 不 
想 个 别处 理 四 科 成 绩 所 反映 的 各 科 能 力 状 况 ， 却 想 作 一 个 总 体 性 学 习 状 况 比较 时 ， 便 要 
用 所 谓 的 主 成 分 分 析 来 找 出 主 成 分 ， 这 里 的 主 成 分 即 由 原来 四 科 成 绩 的 线性 组 合 而 成 的 
新 变量 ， 亦 即 一 个 可 以 帮助 我 们 看 出 学 生 对 此 四 科学 习 状 况 的 综合 性 指标 。 在 此 情况 下 ， 
当然 也 希望 此 指标 能 真正 显示 出 学 生 学 习 程 度 的 差异 ， 所 以 此 指标 能 产生 愈 大 的 变异 数 ， 
代表 对 学 生 之 学 习 程 度 差异 拥有 愈 大 的 反映 及 解释 能 力 。 事 实 上 ， 我 们 平常 用 的 算术 平 
均 法 ,将 四 科 成 绩 相 加 再 除 以 4 得 到 的 平均 成 绩 即 是 一 种 主 成 分 ， 此 旋 主 成 分 分 析 法 中 
的 一 种 特例 〈 即 每 个 变量 的 加 权 程 度 相 同 ) 。 
主 成 分 分 析 的 成 分 y; 和 原来 变量 x, 之 间 的 关系 (假定 原先 有 p 个 变量 ) : 
Yı = шх, +U t tux, =u x 


==» +... — , 
Уз = 11% +и)5) + +U, X, =U ух 


y, Up X, HU% t t + UX, =u" 
这 里 ， um n m p айы ана те. 
oc. УОЛШ Е, BERD, co. Жр 主 成 分 ， 而 总 和 的 特性 也 

就是 用 这 些 线性 关系 式 的 系数 а иа, с, а 来 表示 的 。 其 中 ， 在 选择 加 权 数 и. 
uz，"…，ub 时 要 使 y, 能 得 到 最 大 解释 变异 能 力 ， 即 要 使 y, 能 得 到 最 大 的 变异 数 ， 而 у, 21) 
能 对 原始 资料 中 尚未 被 由 解释 的 变异 部 分 拥有 最 大 解释 能 力 ， 若 依 此 类 推 ， 我 们 可 以 找 
到 m 个 y Ж(т= р), 通常 原始 数据 有 p 个 % 变量 时 ， 经 过 转换 后 ， 仍 可 找到 p 个 y 出 
来 。 然 而 我 们 最 多 只 选择 mm 个 y(i=1,2,…,m, m < p), 希望 此 愈 小 愈 好 ,但 解释 能 力 
却 能 达到 80% 以 上 。 除 此 之 外 ，m 个 y; 与 原来 的 p 个 变量 x 的 最 大 差别 是 : 原始 变量 中 
多 为 彼此 相关 的 变量 ， 经 过 线性 转换 后 所 产生 的 m 个 y; 则 为 彼此 不 相关 的 新 变量 。 

2. 主 成 分 的 推导 

设 y=alxi +a,x, +… +ax, za'x 

其 中 , ae=(aa,…,a) ，x= (x ,x,,"…,%,)'， 求 主 成 分 就 是 寻找 x 的 线性 函数 
ax， 使 相应 的 方差 达到 最 大 ， 即 Var(a'x) =а Ya 达到 最 大 , Н аа=1 (目的 是 使 4 唯 
一 ) 。 此 处 ， 工 为 x 的 协 方差 阵 。 

定理 8.1 设 A 0 为 对 称 阵 ，A;, .A 是 它 的 两 个 不 相同 的 特征 根 ， 相 应 的 特征 向 量 1, 


和 互相 正 交 ， 则 4 可 表示 为 A= ТАТ' = XLI, WA 4 的 谱 分 解 。 即 存在 一 个 正 交 阵 


T, 使 T'AT = diag(Ai,Az，…Anp) = А, T 的 列 回 量 为 相应 的 特征 了 向 量 。 
设 过 的 特征 根 为 A 宇和 A, 宇 … 宇 A, >0， 相 应 的 单位 特征 向 量 为 wu, wu,,，…, и 
令 U-(u,,u;,,u,), 则 U'U ZUU'- I, BI U 为 正 交 阵 ， 且 : 


X =UAU' = Udiag( A, „A25, Ap) U’ = X Au 
KE, а Уа = Ў Ла'щи'а = Ул, (а'ш) (a'u) = Ул (а). 


TE, a' aA, $ (a'u)? - A, (a'U) (a'U)' 2 A,a'UU'a =Àia'a = Àio 
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当 取 а= и BF, ш Eu, = шАщ =à FE y, =wix 就 是 第 一 主 成 分 ， 它 的 方差 最 
K, X Var(y,) = Var(ujx) 2A46 

FE, Var(y;) = Var(u';x) 2A; 

AIh, Cov(y,,y;) = Cov(u';x u'ix) =u Xu =u Àu = Аии 20,i Jj, 

上 述 推导 表明 : 变量 x 的 主 成 分 y EA У ВЛЕ ЖЕЛ ЖСН ЕНТ, TE Tr 
不 相关 ， 方 差 为 了 的 特征 根 。 而 王 的 特征 根 À >> A, >0， 所 以 有 : Var(y,) z Var 
(уз) Z: ---= Var( y,) >O, 

3. 主 成 分 的 性 质 

根据 以 上 分 析 我 们 可 得 出 主 成 分 的 如 下 一 些 性 质 : 

(1) y=U'x, U'U=1, 这里, U x 的 协 方差 阵 的 特征 向 量 组 成 的 正 交 阵 。 

(2) y 的 各 分 量 之 间 是 互 不 相关 的 。 

(3) y 的 p 个 分 量 是 按 方差 大 小 由 大 到 小 排列 的 。 

(4) y 的 协 方差 阵 为 对 角 阵 。 


(5) Xo,2 $A,, ЖЕ, X (оц), 


由 (5) А1, $ Var(y:) = 之 Yar(x) ， 也 就 是 说 ， 主 成 分 把 p 个 原始 变量 的 总 方差 分 
解 成 p 个 不 相关 的 新 变量 的 方差 之 和 。 主 成 分 分 析 的 目的 就 是 为 了 减少 变量 的 个 数 ， 忽 
略 一 些 较 小 方差 的 主 成 分 不 会 给 总 方差 带 来 大 的 影响 。 

定义 ASA 为 第 上 个 主 成 分 六 的 方差 贡献 率 ， 第 一 个 主 成 分 的 贡献 率 最 大 ， 表 明 
儿 综 合 原始 变量 x ，x, ，…，z, 的 能 力 最 强 ， 而 y,，yy ，…，y, 的 综合 能 力 依次 递减 。 若 
只 取 m( < p) 个 主 成 分 ， 则 称 Ya YA, 为 主 成 分 yy ，y,，…，y, 的 累积 方差 贡献 率 ， 它 
表明 у, уз, се, у, {т *1，x,，…，%, 的 能 力 ， 通常 取 m 使 得 累积 贡献 率 不 低 于 
80% 即 可 (一些 文献 中 也 认为 只 要 特征 根 和 ,大 于 1 即 可 ) 。 

(6) а(у;,,х,) = Аш, YO , WL i, ј=1, 2, =, р, 

这 里 ,a(yi,%) 表 示 第 i 个 主 成 分 与 原来 变量 % 的 相关 系数 ， 也 称 为 主 成 分 负荷 
(loadings， 在 因子 分 析 中 称 之 为 因子 载荷 ) ЖЕЕ А = Cau) 称 为 因子 载荷 矩阵 。 在 实际 中 ， 
通常 用 a, 代替 wy 作为 主 成 分 系数 ， 因 为 它 是 标准 化 系数 ， 能 反映 变量 影响 的 大 小 。 


8.3 主 成 分 分 析 的 步骤 


l. 主 成 分 的 计算 步骤 
(1) 设 有 ?个 样品 , p 个 指标 ， 将 原始 数据 标准 化 ， 得 标准 化 数据 和 矩阵 ; 


Xu Xp cU Xy 
x x s.. x 
2i 22 2p 
X = 
Xu X2 тее x 


np 


(2) 建立 变量 的 相关 系数 阵 : R= (г), =X'X, 
(3) R R WREE A mA, mA, >0 及 相应 的 单位 特征 向 量 : 
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SIT из Ц |р 
_| Un иу NL" 

u = u, = ` bh и, = 
Upi U2 шь 


(4) 写 出 主 成 分 : у; = wx) tugt + +u,x ， 这 里 ;=1，2，…w，po 

2. 主 成 分 的 分 析 过 程 

(1) 将 原始 数据 标准 化 ， 以 消除 变量 间 在 数量 级 和 量 纲 上 的 不 同 。 

(2) 求 标准 化 数据 的 相关 矩阵 。 

(3) 求 相 关 和 矩阵 的 特征 值 和 特征 向 量 。 

(4) 计算 方差 贡献 率 与 累积 方差 贡献 率 ， 每 个 主 成 分 的 贡献 率 代 表 了 原 数 据 总 信息 
量 的 百分比 。 

(5) 确定 主 成 分 : HC, С,, =, CIA p 个 主 成 分 ， 其 中 前 m 个 主 成 分 包含 的 数据 信 
息 总 量 〈 即 其 累积 方差 贡献 率 ) 不 低 于 80% 时 ， 可 取 前 m 个 主 成 分 来 反映 原 评价 对 象 。 

(6) 用 原 指 标的 线性 组 合 来 计算 各 主 成 分 得 分 : 以 各 主 成 分 对 原 指 标的 相关 系数 
( 即 载荷 系数 ) 为 权 ， 将 各 主 成 分 表示 为 原 指标 的 线性 组 合 ， 而 主 成 分 的 经 济 意义 则 由 各 
线性 组 合 中 权 数 较 大 的 指标 的 综合 意义 来 确定 ， 即 

С, =аџху +а„х, ++ +а„х„, ЖХ j 21, 2, …, т 

(7) 综合 得 分 : 以 各 主 成 分 的 方差 贡献 率 为 权 ， 将 其 线性 组 合 得 到 综合 评价 函数 。 
АСА Ср АС в 
(8) 得 分 排序 : 利用 总 得 分 可 以 得 到 得 分 名 次 。 
下 面 是 用 R 语言 进行 主 成 分 分 析 的 主要 命令 。 


主 成 分 分 析 函 数 princomp( ) 的 用 法 


princomp( x, сог = FALSE, scores = TRUE, +-+) 


С = 


x 为 数据 矩阵 或 数据 框 
cor 为 是 否 用 相关 阵 ,默认 为 协 差 阵 
scores 为 是 否 输 出 成 分 得 分 


ВЕД РЯ РАЎ screeplot( ) 的 用 法 


screeplot( obj, type = c( " barplot" , "lines" ,… ) 
obj 为 主 成 分 分 析 对 象 
type 为 图 形 类 型 


碎 石 图 是 一 种 可 以 帮助 我 们 确定 主 成 分 合适 个 数 的 有 用 的 视觉 工具 ， 将 特征 值 从 大 
到 小 排列 ， 选 取 一 个 拐 楚 点 对 应 的 序号 ， 此 序号 后 的 特征 值 全 部 较 小 且 彼 此 大 小 差不多 ， 
这 样 选 出 的 号 码 作为 主 成 分 的 个 数 。 
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自 编 综 合 得 分 排名 基数 princomp. гапк( ) 的 用 法 


princomp. rank < – function( РСА ,m =2,plot =F) # libray( mvstats ) 
PCA 为 主 成 分 对 象 
m 为 主 成 分 个 数 

plot 为 是 否 画 成 分 图 
注 : 该 郴 数 用 来 进行 综合 得 分 排名 。 


【 例 8 -2】( 续 例 7 -2) 对 例 7 -2 数据 应 用 主 成 分 分 析 方 法 进行 综合 评价 。 

下 面 应 用 主 成 分 分 析 方 法 ， 以 例 7 -2 的 八 个 指标 作为 原始 变量 ， 使 用 R 语言 ， 对 我 
国 31 个 省 、 市 、 自 治 区 的 人 均 消费 水 平 作 分 析 评 价 ， 并 根据 因子 得 分 和 综合 得 分 对 各 
省 、 市 、 自 治 区 的 人 均 消 费 水 平 进行 综合 分 析 。 

(1) 计算 相关 和 矩阵 。 


ee mess 


&& 在 mvstats. xls:d7. 2 中 选取 Al :132 区 域 ,然后 拷贝 
> X =read. table( "clipboard" , header = T) 
i» cor( X) 


-......... 


a 
< 
б 
x 
5 
£ 
< 
š 


和 


pwwo c e u e i чч эъ э в в а ва а шы ь 2 .-..........-. Mmmm aM 


:> РСА = princomp(X,cor=T) # 主 成 分 分 析 C О Т Т Т 4 
i> PCA # 特 征 值 
Call; 


princomp( x = X, cor = T) | 
Standard deviations : i 
Comp. 1 Сотр. 2 Сотр. З Comp.4 Comp.5 Comp.6 Comp.7 Comp.8 - 
2.279 1.123 0.804 0.623 0.484 0.382 0.296 0.207 | 
8 variables and 31 observations. i 
> PCA $loadings # 主 成 分 负荷 
| 
| 
i 


Loadings : 

Comp. І Сотр. 2  Comp.3  Comp.4  Comp.5  Comp.6  Comp.7 Comp. 8 
ХІ  -0.400 0. 301 0.133 0.492 -0.215 0.604 -0.274 
X2 -0.141 0. 752 0.358 -0.488 -0.183 -0.103 
X3 -0.363 -0.492 -0.492 0. 321 0. 526 


X4 -0.342 0.262 -0.535 0.328 -0.521 -0.116 0.367 
X5 -0.401 -0.135 0. 377 -0. 181 0.344 0.110 0.714 


wm 


: X6 -040 -0.211 — 0.286 -0.618 -0.463 0.329 
i X7 -0.288 -0.576 0.140 -0.427 -0.485 -0.222 -0.310 i 
! X8 -0.399 0.107 0.215 0.455 0.322 -0.521 -0.447 
| Comp. 1 Сотр. 2 Comp.3 Сотр.4 Сотр. 5 Comp.6 Сотр. 7  Comp.8 | 
i 55 loadings 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.00 | 
! Proportion Var 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 | 
; Cumulative Var _ 0.125 0.250 — 0.375 . 0.500 0.625 0.750 0.875 _ 1.000 ; 
(3) 确定 主 成 分 。 


按照 累积 方差 贡献 率 大 于 80% 的 原则 ， 选 定 了 两 个 主 成 分 ， 其 累积 方差 贡献 率 为 
80. 7% , 本 例 取 m -2, 从 碎 石 图 上 也 可 以 看 出 m E 2 比较 合适 。 


WY 


: > screeplot( PCA ,type = " lines" ) 
: ° 
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! ° ЭКЕК о о, 
ГЕ | 
Сотр. 1 Сотр.3 Сотр.5 Сотр.7 
(4) 主 成 分 得 分 。 
:>PCASscores # 主 成 分 得 分 Т 
i Comp. 1 Comp. 2 Comp. 3 Comp. 4 Comp. 5 Comp. 6 Comp. 7 Comp.8  ; 
; 北京 -6.088 2.0961 -0.96778 0.2578 -0.000535 -0.3726 -0.25931 0.10190 i 
! 天 津 -2653 -0.8969 -0.89156 -1.0771 -0.024427 0.2725 0.27083 -0.27803 
| 河北 1.162 0.3006 -0.78450 0.0219 -0.789682 0.0984 0.65019 0.21293 
' UR 1.650 0. 4301 -0.46096 0. 4065 -0.369087 -0.0702 -0.20459 0. 05028 ; 
i 内 蒙古 1631 0.5761 0.44123 0.0672 -0.259886 0.1297 -0.51023 0.17414 | 
i 辽宁 1.243 0.7521 -0.05175 0.3352 -0.421283 -0.4989 0.43066 0.00329 ! 
| 吉 1.646 0.2535 0.11212 0.2190 -0.457988 -0.3258 0.13915 -0.00733 : 
; 黑龙 江 — 1.816 0.3164 -0.25497 0.2583 -0.543037 -0.4299 0.26200 0.08993 ; 
i 上 海 -5.939 -0.1613 0.41306 1.2326 0.577956 -0.7383 0.23954 0.01902 ; 
! 江苏 -0.168 0.0301 -0.23342 -0.2667 0.870118 0.6568 0.02119 0.13793 ! 
:浙江 -4.418 0.3959 -0.96976 -0.7582 0.075830 0.5685 0.05212 -0.28614 ! 
| 安徽 1.880 -0.3873 0.30436 -0.0396 0.878595 -0.2660 0.14691 0. 14445 | 
i ЖШ -0.467 -0.9017 0.72983 -0.3274 0.373458 0.2688 0.65255 -0.14626 : 
| 江西 2.574 -1.4954 0.30573 -0.1399 0.470061 -0.0508 -0.26978 0.01345 i 
! — an — 00.104 1.1224 -0.18744  -0.8102 0.199129 -0.0704 -0.35306 0. 19600 ! 
' 河南 1.882 -0.8044 -0.16710 -0.5684 -0.902832 -0.1304 0.12503 -0.40824 | 


ZIP: IZ SP ......-.Á.......-Á....-Á.Á..Á.....-...--.Á.Á...-.Á..-Á...-......-..-.. -...-..-...-...-...-......-......-...-_á................... 


Wo 狂 -多 元 统计 分 析 及 语言 奸 要 


I EE SE EE ж ш ® шт тот тт т т шш ш ш шш ш ш тт от т тт ж ш шш ш ш шш ы ш чт ы ® шш т ош M т т тш ш ш шт EE 


: 湖北 1.161 -0.2134 0.34680 -0.8062 0. 045277 -0.7257 -0.29512 -0.07036 
; ”湖南 -0.417 -0.4437 -0.00140 -0.4734 -0.243215 -0.4043 -0.46766 0. 04037 ' 
i 广东 -4.610 -3.0921 1.51709 0.3354 -1.042856 0.4162 -0.20354 0. 39455 i 
! 海南 1.762 -1.8016 -0.12023 1.3576 0.699784 0.1085 0.01702 -0.18702 ! 
| 重庆 -0.443 0.0329 -0.15222 -0.6429 0.448715 -0.5853 0.17119 0. 12343 | 
;四川 0.500 -0.4128 -0.20358 -0.1993 0. 386787 -0.1160 0. 06531 -0.15601 ' 
i 贵州 1.933 0.0675 -0.00331 0.1013 0.582938 0.2159 0.19090 0.39636 i 
' 云南 0.108 — 0.1192 0.46721 0.8561 -0.440276 0.0264 0.00589 -0.32652 | 
' 西藏 -0.202 2.5908 3.21475 -0.4399 0.113417 0.3679 0.16619 -0.13311 ' 
; 陕西 0.769 -0.2024 -1.15101 — 0.0136 0.068035 0.3779 -0.11139 0.10207 — | 
| НА 1.288 0.8011 -0.52540 — 0.5733 0. 023345 0.0844 -0.09101  —0.03434 
! 青海 0.671 0.9743 -0.16879 1.3284 0.056330 0.4564 -0.47103 -0.40183 
' 宁夏 0.754 1.0138 -0.71817 0.3497 -0.315730 0.7029 0.17256 0. 32696 
: ЖШ 0.630 0.8984 0.26158 -0.6973 -0.159674 0.0997 -0.25660 -0.02350 | 


esm sm 


结果 分 析 : 由 主 成 分 载荷 矩阵 可 以 看 出 ， 主 成 分 C, 在 入 (人均 食 品 支出 ) 、 X, (А 
均 家 庭 设备 用 品 及 服务 支出 ) 、X，( 人 均 交 通 和 通信 支出 ) 、X。( 人 均 娱 乐 教育 文化 服务 
支出 ) AX, (人均 杂项 商品 和 服务 支出 ) 上 的 载荷 值 都 很 大 ， 可 视 为 反映 日 常 必需 消费 
的 主 成 分 ; C, 在 X (人均 衣着 商品 支出 ) X, (人 均 居 住 支出 ) 上 有 较 大 的 载荷 ， 可 视 
为 衣着 和 居住 的 主 成 分 。 有 了 各 个 主 成 分 的 解释 ， 结 合 各 个 省 、 市 、 自 治 区 在 两 个 主 成 
分 上 的 得 分 和 综合 得 分 ， 就 可 以 对 各 省 、 市 、 自 治 区 的 综合 人 均 消费 水 平 进行 评价 了 。 

最 后 ， 由 加 权 法 估计 出 综合 得 分 ， 以 各 主 成 分 的 方差 贡献 率 占 两 个 主 成 分 总 方差 贡 
献 率 的 比重 作为 权重 进行 加 权 汇 总 ， 得 出 各 省 Th. 、 自 治 区 的 综合 得 分 ， 即 

C = (0. 649 x C, +0. 158 x C,)/ (0. 649 +0. 158) 
各 省 、 市 、 自 治 区 的 主 成 分 得 分 及 排名 如 下 : 


划一 


!» princomp.rank( PCA , m =2) 
| Comp. 1 Comp. 2 C rank 
北京 -6.0882 2.09606 -4.4894 2 | 
Xh -2.6532 -0.89692 -2.3101 5 i 
河北 1.1621 0.30059 0.9938 20 | 
山西 1.6500 0.43010 1.4117 26 
内 蒙古 16314 0.57609 1.4253 27 i 
辽宁 1.2429 0.75205 1.1470 22 
吉林 1.6459 0.25355 1.3739 25 
黑龙 江 1.8163 0.31636 1.5233 29 ! 
t -5.9388 -0.16127 -4.8102 1 | 
Ж -0.1683 0.03012 -0.1295 10 | 
浙江 -4.4178 0. 39587 -3.4775 4 
安徽 1.8800 -0.38730 1.4371 28 : 
福建 ” -0.4666 -0.90174 -0.5516 6 ! 
江西 2.5741 -1.49545 1.7792 31 : 
山东 0.1042 1.12235 0.3031 12 
' ! WA 1.8817 -0.80439 1.3570 24 
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: 湖北 1.1609 -0.21344 0.8924 19 
! 湖南 -0.4165 -0.44373 -0.4218 7 
' 广东 -4.6097 -3.09210 -4.3132 
广西 0.2393 -1.95811 -0.1899 9 
i 海南 1.7619 -1.80161 1.0658 21 
' 重庆 -0.4426 0.03294 -0.3497 8 
四 川 0.5004 -0.41276 0.3220 13 
i 贵州 1.9329 0.06752 1.5685 30 
' 云南 0.1084 0.11915 0.1105 11 
| 西藏 -0.2021 2.59081 0.3435 14 
' 陕西 0.7690 -0.20240 0.5792 15 
: 甘肃 12875 0.80113 1.1925 23 
; ТӨ 0.6707 0.97433 0. 7300 17 
! FE 0.7538 1.01381 0.8046 18 


Mi 0. 6300 _ 0.89838 0. 6824 16 
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e e Ан уны 第 二 主 成 分 为 纵 轴 ， 绘 制 各 省 、 市 、 自 治 区 的 成 分 图 ， WFA, 
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在 日 常 必需 消费 主 成 分 C, 上 得 分 最 高 的 前 五 个 省 、 市 、 自 治 区 依次 是 上 海 、 北 京 、 
广东 、 浙 江 和 天 津 ， 且 上 海 、 北 京 和 广东 绝对 值 明显 地 高 于 其 他 省 、 市 、 自 治 区 。 这 就 
是 说 ， 对 以 食品 和 交通 及 通信 等 为 主 的 日 常 必需 消费 而 言 ， 北 京 、 广 东 和 上 海 的 消费 水 
平 远 远 高 于 其 他 省 、 市 、 自 治 区 ; 而 江西 和 贵州 在 这 方面 的 消费 相对 较 低 。 西 藏 、 北 京 
和 山东 在 主 成 分 C: 上 的 得 分 较 高 ， 可 见 在 这 些 地 区 人 们 用 于 衣着 和 住房 方面 的 消费 支出 
不 小 ， 西 藏 排 到 全 国 最 前 ， 主 要 是 从 人 均 来 说 ， 西 藏 在 这 方面 占有 优势 。 对 衣着 因子 而 
言 ， 西 藏 、 北 京 的 得 分 最 高 ， 得 分 较 低 的 是 广东 、 广 西 和 海南 。 这 说 明 衣 着 因子 受气 候 
的 影响 最 大 ， 北 部 、 西 北部 的 省 、 市 、 自 治 区 的 人 们 为 了 御寒 ， 因此 在 这 方面 的 支出 较 
多 。 其 次 影响 衣着 因子 的 就 是 各 地 人 们 的 衣着 习惯 了 ， 例 如 天 津 和 广东 ， 它 们 的 经 济 都 
比较 发 达 ， 但 排名 却 较 后 ， 根 据 资 料 可 知 ， 天 津 虽 和 北京 一 样 同 为 直辖 市 ， 且 与 北京 相 
邻 ， 但 由 于 衣着 习惯 不 同 ， 北 京 人 更 注重 衣着 ， 而 天 津 人 就 没有 北京 人 那么 注重 着 装 ， 
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因而 它 的 衣着 因子 得 分 较 低 。 同 样 的 道理 ， 同 为 经 济 发 达 地 区 的 广东 和 上 海 相 比 ， 上 海 
人 的 穿着 就 比 广东 人 要 讲究 得 多 ， 广 东 人 平时 的 穿着 很 随意 ， 因 而 该 省 人 们 用 于 衣着 方 
面 的 人 均 消 费 支出 相对 较 少 也 就 不 足 为 怪 了 。 就 综合 得 分 来 看 ， 上 海 、 北 京 、 广 东 、 浙 
江 和 天 津 这 五 个 省 、 市 的 得 分 最 高 ， 江 西 、 贵 州 、 黑 龙 江 省 得 分 位 于 全 国之 末 ， 故 可 知 
上 上海、 北京 、 广 东 、 浙 江 、 天 津 这 五 个 省 、 市 的 综合 人 均 消 费 水 平 居 于 全 国 水 平 前 列 ， 
江西 、 贵 州 、 黑 龙 江 省 的 综合 人 均 消 费 水 平 居 于 全 国 水 平 之 末 。 由 于 北京 、 上 海 、 广 东 、 
浙江 、 天 津 这 五 个 省 、 市 是 我 国 经 济 发 展 水 平 较 高 的 五 个 省 、 市 ， 而 江西 、 贵 州 、 黑 龙 
江 省 是 我 国 较为 贫困 的 省 份 ， 可 见 我 国 各 地 区 城镇 的 人 均 消 费 水 平 主要 是 由 经 济 发 展 水 
平 决定 的 ， 经 济 发 展 水 平 较 高 的 省 、 市 、 自 治 区 ， 其 城镇 人 均 消 费 水 平 也 相对 较 高 ; 经 
济 较 落 后 的 地 区 ， 其 城镇 人 均 消 费 水 平 也 相对 较 低 。 而 西藏 作为 一 个 特殊 的 自治 区 ， 尽 
管 它 的 消费 支出 几乎 全 用 来 满足 人 生存 的 基本 需要 ( 衣 、 食 、 住 、 行 ), 但 由 于 政府 政策 
的 大 力 扶持 ， 它 的 人 均 消 费 水 平 仍 排 在 全 国 前 列 。 


8.4 应 用 主 成 分 分 析 的 注意 事项 


主 成 分 分 析 是 首先 由 K . Pearson 于 1901 年 提出 ， 再 由 Hotelling (1933) 加 以 发 展 的 
一 种 多 变量 统计 方法 。 其 主要 目的 是 将 许多 变量 予以 减少 ， 使 其 改变 为 少数 几 个 互相 独 
立 的 线性 组 合 变量 (HAY), ， 而 在 经 由 线性 组 合 而 得 的 成 分 的 变异 数 会 变 为 最 大 ， 使 得 
受 试 者 在 这 些 成 分 上 显 出 最 大 的 个 别 差 异 来 。 

主 成 分 分 析 除 了 用 来 概述 变量 间 的 关系 外 ， 亦 可 用 来 削减 回归 分 析 或 聚 类 分 析 中 变 
量 的 数目 。 此 外 ， 为 了 达到 最 大 变异 的 目的 ， 我 们 可 用 主 成 分 分 析 将 原来 的 变量 转变 为 
成 分 ， 在 抽出 成 分 之 后 ， 可 将 各 变量 的 原始 分 数 转换 为 成 分 分 数 ， 以 供 进 一 步 深 入 的 统 
计 分 析 。 通 常 ， 在 进行 主 成 分 分 析 时 ， 应 注意 下 列 五 点 : 

(1) 主 成 分 分 析 ， 可 使 用 样本 协 方差 阵 或 相关 系数 矩阵 为 出 发 点 来 进行 分 析 ， 但 大 
都 以 相关 系数 矩阵 为 主 。 

(2) 为 使 方差 达到 最 大 ， 通 常 主 成 分 分 析 是 不 加 以 转轴 的 。 

(3) 成 分 的 保留 : Kaiser (1960) 主张 将 特征 值 小 于 1 的 成 分 予以 放弃 ， 而 只 保留 特 
征 值 大 于 1 的 成 分 (成 分 保留 的 其 他 标准 ， 可 参考 书 中 的 内 容 )。 

(4) 在 实际 研究 里 ， 研 究 者 如 果 用 不 超过 三 或 五 个 成 分 就 能 解释 变异 的 80% ， 就 算 
令 人 满意 。 

(5) 使 用 成 分 得 分 后 ， 会 使 各 变量 的 方差 为 最 大 ， 而 且 各 变量 之 间 会 彼此 独立 正 交 。 


案例 分 析 : 地 区 电信 业 发 展 情况 的 主 成 分 分 析 及 R 操作 


党 的 十 三 届 四 中 全 会 以 来 ,我 国 的 电信 业 始 终 保 持 高 速 发 展 的 态势 。 目 前 ， 电 信 业 
务 已 经 完成 了 从 人 工 问 自动 、 由 模拟 技术 向 数字 技术 、 由 小 容量 到 大 容量 、 由 单一 业务 
问 多 种 业务 的 转变 ,已 经 成 为 我 国 国民 经 济 的 增长 点 和 重要 支柱 产业 之 一 。2003 Е, R 
国 的 电信 业 仍 然 保持 很 高 的 增长 速度 ， 广 东 电信 业务 发 展 也 加 快 ， 主 要 电信 业务 量 稳 居 
全 国 首 位 。 
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2003 年 ， 广 东 电信 各 运营 公司 在 不 断 加 剧 的 市 场 竞 争 中 ， 纷 纷 采取 有 力 措 施 拼 抢 市 
场 份额 ， 使 电信 用 户 获得 更 多 实惠 ， 电 信 业 务 保持 高 速 发 展 ， 综 合 实力 再 上 新 台阶 。 然 
而 ， 广 东 省 各 市 之 间 发 展 却 进 一 步 分 化 ， 表 现 出 不 平衡 性 。 本 例 是 为 探索 广东 2003 年 各 
地 区 电信 业 发 展 的 差异 性 ， 探 求 引 起 差异 的 主要 原因 ， 找 出 解决 问题 的 方法 。 实 现 各 地 
区 的 共同 发 展 ， 避 免 因 个 别 落后 地 区 导致 整体 水 平 的 下 降 。 

本 案例 通过 主 成 分 分 析 和 聚 类 分 析 的 综合 应 用 来 研究 各 城市 2003 年 在 电信 业 进 展 方 
面 的 相似 性 和 差异 性 ， 并 加 以 分 析 ， 以 寻找 取得 进展 的 方法 。 | 

本 例 选取 了 广东 省 21 个 地 级 市 2003 年 度 电 信 业 发 展 数 据 。 这 些 城市 分 别 是 : 广州 
市 、 深 圳 市 、 珠 海 市 、 汕 头 市 、 佛 山 市 、 韶 关 市 、 河 源 市、 梅州 市 、 惠 州 市 、 汕 尾市 、 
东莞 市 、 中 山 市 、 江 门市 、 阳 江 市 、 湛 江 市 、 诚 名 市 、 後 庆 市 、 清 远 市 、 潮 州 市 、 揭 阳 
市 、 云 浮 市 。 共 选取 了 电信 业 的 七 个 主要 指标 如 下 : 

X: 电信 业务 总 量 (万 元 ); 

: 每 百人 拥有 固定 电话 数 〈 个 ) 

: 每 百人 拥有 移动 电话 数 CT); 

: 国际 互联 网 用 户 (AF); 

: 互联 网 用 户 使 用 时 长 (万 分 钟 ); 
: 长 途 电 话 通 话 量 (IX); 

: 长 途 电 话 通 话 时 长 (万 分 钟 )。 
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二 、R 语言 操作 

1. 调 入 数据 

选中 caseg 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case2 = read. table( " clipboard" , 
header =T) 。 
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2. RATH (宏观 分 析 ， 区 域 划分 ) 

2003 年 里 ， 广 东 各 地 区 电信 业 发 展 除 了 差异 性 外 ， 还 有 集中 发 展 的 趋势 。 我 们 可 以 
利用 聚 类 分 析 将 广东 省 的 各 市 分 成 几 类 。 各 类 代表 了 不 同 的 发 展 水 平 ， 同 时 每 类 所 包含 
的 城市 具有 类 似 的 发 展 水 平 。 经 过 分 析 ， 我 们 也 得 到 一 点 启示 : 各 市 在 发 展 电信 业 时 ， 
不 能 只 片面 强调 通信 和 总 量 ， 同 时 也 要 注意 人 均 量 的 发 展 ， 注 意 全 地 区 范围 内 的 普及 。 只 
有 人 均 水 平 提升 了 ， 才 真正 具有 意义 ， 也 才能 说 该 城市 的 电信 水 平 真 正 提高 了 。 一 个 城 
市 电信 业 方 面具 有 全 面 发 展 了 ， 才 能 经 受 住 WTO 的 冲击 ， 才 能 保持 良好 的 竞争 能 力 。 同 
时 ， 就 广东 省 而 言 ， 尽 管 它 的 电信 业 总 量 2003 年 排 到 了 全 国之 首 ， 但 是 各 地 区 间 存 在 严 
重 的 差异 。 珠 三 角 地 区 发 展 迅猛 ， 电 信 业 务 总 量 大 ， 市场 份 额 高 ， 而 经 济 欠 发 达 地 区 特 
别 是 山区 和 农村 则 发 展 较 慢 ， 总 量 小 份额 低 。 对 此 ， 广 东 省 政府 应 加 快 经 济 欠 发 达 地 区 
的 电信 建设 ,大力 拓 展 山区 电信 和 市场， 并 采取 扶持 措施 加 强 农村 市 场 建设 , 促进 广东 省 
各 地 区 电信 业 的 协调 发 展 。 作 为 落后 城市 ， 也 应 该 积极 采取 措施 加 速 自身 发 展 ， 提 高 竞 
争 能 力 ， 从 而 避免 成 为 “ 拖 油 瓶 。 
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ects: 


广东 省 各 城市 按 电信 业 发 展 水 平 应 该 分 成 四 类 


分 类 第 二 类 
53 广州 、 人 佛山、 东莞、 珠海、 中山、 汕头、 江门 、 惠 州 、 阳 江 、 茂 名、 潮州 、 
一 深圳 梅州 、 秘 庆 、 湛 江 、 韶 关 、 揭 阳 、 清 远 、 云 浮 、 河 源 、 汕 尾 
第 三 类 

分 三 类 广州 、 佛山 、 “| 梅州、 惠州、 珠海、 中 出 、 江 门 、 汕 头 、 阳 江 、 茂 名 、 潮 州 、 
深圳 东莞 牧 庆 、 湛 江 、 韶 关 、 揭 阳 、 清 远 、 云 浮 、 河 源 、 汕 尾 

分 四 类 | zi 珠海 、 江 门 、 中 山 、 汕 头 、 汕 尾 、 阳 江 、 清 远 、 
ы | ж O (к. ARE МН. ER НЕ. Н. a, 
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3. i4Óze x (微观 分 析 ， 综 合 排 名 ) 

由 于 指标 多 ， 不 便于 综合 分 析 ， 先 采用 主 成 分 分 析 法 提取 主要 成 分 , 然后 进行 相应 的 
分 析 。 用 R 软件 运行 后 我 们 发 现 可 以 提取 两 个 主要 成 分 ， 这 两 个 成 分 占 全 部 的 96. 14% ， 可 
以 说 是 基本 代表 了 全 部 指标 的 信息 量 。 

经 过 主 成 分 分 析 ， 我 们 发 现 可 以 提取 两 个 主 成 分 Comp. 1 ，Comp. 2。 

第 一 个 主 成 分 Comp. 1 主要 由 和 〈 电 信 业 务 总 量 ) X, 〈 国 际 互联 网 用 户 ) X, (互联 
网 用 户 使 用 时 长 ) X, (长 途 电话 通话 量 ) ，X, (长 途 电 话 通 话 时 长 ) 决定 ， 这 5 个 指标 是 
总 量 因 素 ， 说 明 一 个 城市 的 电信 业 规 模 和 电信 通信 业务 发 展 水 平 。 

第 二 个 主 成 分 Comp. 2 主要 由 XX,，( 每 百人 拥有 固定 电话 数 )，X，( 每 百人 拥有 移动 电话 
ЖО 决定 。 这 两 个 指标 是 平均 量 成 分 ， 反映 了 电信 行业 中 的 电话 人 均 普及 情况 。 

由 于 我 们 在 主 成 分 分 析 后 仅 选 取 了 两 个 主 成 分 PC, PC, 就 代表 了 96. 14% 的 信息 ， 可 
以 说 基本 表征 了 我 们 全 部 的 指标 。 所 以 我 们 用 提取 的 主 成 分 进行 各 城市 的 综合 分 析 。 

我 们 发 现 7 个 经 济 指标 可 以 用 两 个 综合 指标 代替 ， 而 综合 指标 的 信息 没有 损失 多 少 。 
在 此 基础 上 ， 我 们 不 仅 可 以 算出 各 城市 的 成 分 得 分 ， 而 且 可 以 利用 线性 加 权 方 法 ， 以 各 主 
成 分 的 贡献 率 为 权 数 ， 即 按 公 式 (0.738 xPC, +0. 223 xPC,) / (0.738 +0. 223) 计算 各 城 
市 电信 业 发 展 水 平 的 综合 得 分 并 据 此 排名 。 其 主 成 分 得 分 和 排名 见 下 图 。 
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通过 对 各 城市 进行 排名 后 ， 我 们 发 现 ， 排 名 比较 靠 前 的 地 区 有 深圳 、 广 州 、 东 莞 、 惠 
州 和 佛山 。 比 较 落 后 的 地 区 有 汕尾 、 湛 江 、 茂 名 和 阳江 。 

我 们 也 可 以 从 主 成 分 得 分 图 上 清楚 地 看 到 ， 第 一 主 成 分 Comp. 1 和 第 二 主 成 分 Comp. 2 
得 分 最 高 的 均 为 深圳 ， 而 广东 各 城市 排名 中 稍 有 争议 的 是 惠州 、 中 山 和 藏 名。 我 们 回 过 去 
看 前 面 的 数据 ， 发 现 尽管 惠州 市 的 第 一 主 成 分 Comp. 1 水 平 即 通信 发 展 水 平 低 于 中 山 ， 但 其 
第 二 主 成 分 Comp. 2 因子 即 电话 普及 水 平 是 远 远 超过 中 山 的 ， 而 第 二 主 成 分 Comp. 2 所 占 的 
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比重 为 全 部 变量 的 22. 34% ， 这 也 是 不 容 忽视 的 。 而 茂名 市 由 于 其 互联 网 用 户 不 够 多 而 且 人 
均 电 话 普及 量 不 够 ,导致 其 他 两 个 主 成 分 的 得 分 都 不 高 ， 而 第 二 主 成 分 尤其 偏 低 ， 从 而 它 
的 排名 比较 落后 。 从 主 成 分 得 分 图 上 看 到 : 

(1) 广州 在 第 二 象限 ， 远 离 Comp. 1 和 Comp. 2 轴 。 这 说 明 广 州 的 第 一 主 成 分 Comp. 1 
得 分 比较 高 ， 仅 次 于 深圳 ， 但 是 第 二 主 成 分 Comp. 2 得 分 较 低 。 我 们 知道 Comp. 1 代表 了 电 
信 业 通信 业务 发 展 的 总 量 水 平 ， 而 Comp. 2 代表 了 电信 业 发 展 平均 量 水 平 。 结 合 Comp. 1, 
Comp. 2 的 意义 来 分 析 ， 广 州 是 广东 的 省 会 城市 ， 经 济 、 文 化 等 各 项 总 量 发 展 水 平 都 不 错 ， 
电信 业 发 展 总 量 也 不 错 ， 故 而 Comp. 1 得 分 比较 高 ， 仅 次 于 深圳 ， 但 是 由 于 广州 也 是 一 个 大 
型 开放 性 城市 ， 人 口 也 很 多 ， 人 口 增 长 的 速度 明显 比 电信 事业 发 展 快 ， 这 样 计算 下 来 的 人 
均 量 就 不 如 深圳 高 了 。 

(2) 梅州 和 惠州 的 情况 和 广州 有 点 相反 ， 他 们 的 电信 总 量 方面 不 如 广州 ， 但 由 于 其 人 
口 比 较 少 ， 人 均 量 高 ， 从 而 尽管 Comp. 1 得 分 比较 低 ， 但 Comp. 2 有 着 很 高 的 得 分 。 这 表现 
在 主 成 分 图 上 就 是 ， 距 离 Comp. 2 轴 很 近 ， 离 Comp. 1 轴 远 。 由 于 其 特殊 性 我 们 将 它们 单独 
分 成 一 类 。 

(3) 从 图 上 我 们 看 到 深圳 的 位 置 在 图 中 离 原 点 比较 远 ， 同 时 它 到 Comp. 1 轴 和 到 
Comp. 2 轴 的 距离 都 比较 远 。 这 说 明 深圳 Comp. 1 和 Comp. 2 的 得 分 都 比较 高 。 深 圳 作为 一 
个 经 济 特区 ， 自 从 改革 开放 以 来 ， 各 方面 发 展 速度 很 快 ， 是 个 发 达 城 市 ， 其 移动 电话 用 户 
比较 多 。 近 年 来 移动 电话 的 发 展 在 电信 业 发 展 中 异军突起 ， 也 占据 了 重要 地 位 。 而 与 广州 
有 所 不 同 ， 深 圳 的 人 口 总 数 不 算 太 多 ， 从 而 其 电话 普及 率 可 以 达到 很 高 。 正 因为 如 此 ， 它 
的 Comp. 2 得 分 较 高 。 同 时 由 于 其 发 达 性 ， 电 话 和 互联 网 用 户 很 多 ， 电 信 业 发 展 总 量 也 不 
错 ， 从 而 Comp. 1 有 着 很 高 的 得 分 ， 在 广东 所 有 城市 中 排名 第 一 。 很 高 的 Comp. 1 得 分 和 
比较 高 的 Comp. 2 得 分 就 决定 了 深圳 在 排名 时 可 以 领先 于 广州 而 居于 第 一 位 。 

(4) 东莞 的 情形 有 点 类 似 广 州 和 深圳 。 它 的 Comp. 1 和 Comp. 2 的 得 分 都 不 低 ， 且 为 
负数 ， 所 以 具有 比较 高 的 排名 。 

(5) 佛山 从 主 成 分 图 上 看 来 比较 接近 Comp. 2 轴 ， 离 Comp. 1 轴 稍 远 。 这 表明 佛山 电 
信 业 方面 的 发 展 在 总 量 方面 取得 的 成 绩 还 是 很 显著 的 。 但 是 人 均 普 及 量 不 够 高 ， 从 而 主 
成 分 Comp. 2 得 分 为 正 。 又 由 于 其 与 Comp. 1 的 得 分 相当 ， 故 排 在 第 4 名 。 

(6) 汕头 等 六 个 城市 集中 在 Comp. 2 轴 附 近 ， 但 由 于 其 有 正 有 负 ， 且 得 分 比较 低 ， 
从 而 导致 他 们 的 排名 相对 比较 落后 。 而 中 山 和 汕头 有 着 正 的 Comp. 1 和 Comp. 2 得 分 ， 从 
而 也 使 其 排名 落后 。 江 门 等 其 余 城市 ， 也 集中 在 原点 右上 方 ， 这 表明 他 们 的 两 主 成 分 得 
分 都 比较 低 ， 这 就 解释 了 为 什么 他 们 的 排名 比较 落后 。 


案例 分 析 题 

从 给 定 的 题目 出 发 ， 按 内 容 提要 、 指 标 选 取 、 数 据 搜 集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 

1. 对 世界 主要 国家 综合 竞争 力 进 行 分 析 与 评价 。 

2. 主 成 分 分 析 法 在 股票 投资 价值 评价 中 的 应 用 。 

3. 房地产 指标 的 主 成 分 分 析 。 

4. 评价 2010 年 我 国 31 个 省 、 市 、 自 治 区 的 经 济 效益 。 
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5， 对 我 国 2004 年 城市 居民 生活 费 支 出 作 主 成 分 分 析 。 

6. 对 我 国 31 个 省 、 市 、 自 治 区 工业 企业 经 济 效益 作 综 合 评价 (以 2010 年 以 后 的 数 
据 为 据 )。 

7， 对 我 国 31 个 省 、 市 、 自 治 区 农业 发 展 状 况 作 综合 评价 (以 2010 年 以 后 的 数据 为 据 ) 。 

8. 考察 我 国 各 省 市 的 社会 发 展 综合 状况 (以 2010 年 以 后 的 数据 为 据 )。 —— 

9. 对 2010 年 度 中 国 各 地 区 的 电信 业 发 展 情况 作 比 较 分 析 。 

10. 对 我 国 31 个 省 、 市 、 自 治 区 的 零售 物价 指数 进行 考察 。 

11. 以 城镇 化 水 平 测度 方法 探讨 及 对 中 国 “ 三 农 ” 问 题 的 思考 。 


思考 练习 题 

一 、 思 考题 (手工 解答 ， 上 交 作业 本 ) 

. 试 述 主 成 分 分 析 的 基本 思想 。 

‚ 总结 主 成 分 分 析 的 计算 步骤 。 

‚ 试 述 主 成 分 分 析 在 多 指标 统计 分 析 应 用 中 的 注意 事项 。 
. 简要 分 析 主 成 分 分 析 解 决 多 指标 综合 评价 中 的 权重 问题 。 
. 设 协 方差 阵 为 : 


oc op 0 


л > о N = 


О op с 
试 求 主 成 分 及 每 个 主 成 分 所 能 解释 的 总 体 方差 的 比例 。 
6. х= (zz) 是 协 方差 阵 为 

l p … p 


1 
P 7 | P| 0 <p<1 的 p 维 随机 向 量 ， 


$` = 


2 2 2 
cp G ар 


$ = 


р р > р 
证 明 : LURKERS А, =o (1 *p(1-p)), x 的 第 一 主 成 分 是 y, = 


二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 

1. 编写 计算 思考 题 5 的 R 语言 计算 程序 。 

2. 基于 主 成 分 分 析 原 理 ， 编 写 求解 主 成 分 的 R 语言 程序 。 

3. 我 国 各 地 区 农村 居民 家 庭 平均 每 人 生活 消费 支出 初探 。 

党 和 政府 一 直 强 调 大 力 开拓 农村 消费 市 场 ， 扩 大 内 需 是 我 国 经 济 发 展 的 长 期 战略 方 
针 和 基本 立足 点 。 虽 然 农 村 消费 水 平 逐 步 提高 ， 但 各 省 、 市 还 呈现 明显 的 差异 ， 为 了 进 
一 步 了 解 它们 之 间 的 差异 以 及 在 什么 领域 有 较 大 的 差异 ， 试 通过 多 元 数据 的 直观 分 析 方 
法 来 探究 全 国 各 地 区 的 农村 居民 家 庭 平 均 每 人 生活 消费 支出 的 相似 性 和 差异 性 ， 以 及 各 
项 指标 之 间 的 关系 ， 找 出 农村 消费 水 平 较 低 的 地 区 ， 为 改变 这 些 地 区 的 现状 提供 依据 。 

下 表 选 取 了 2006 年 我 国 31 个 省 、 市 、 自 治 区 农村 居民 家 庭 平均 每 人 生活 消费 支出 
数据 (数据 来 源 于 中 国 国家 统计 局 网 ) 。 主 要 指标 如 下 : 

X,: 食品 支出 (元 /人 ); X,: 衣着 支出 (元 /人 ); 


l $ | 
p“ 
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X,: 居住 支出 (元 /人 ); 
X,; 交通 和 通信 支出 (元 /人 ); 


X,: 家 庭 设备 及 服务 支出 (元 /人 ); 
X,: 文教 、 娱 乐 用 品 及 服务 支出 (元 /人 ); 


Ху: 医疗 保健 支出 (元 /人 ); 


X,; 其 他 商品 及 服务 支出 (元 /人 )。 


2006 年 我 国 31 个 省 、 市 、 自 治 区 农村 居民 家 庭 人 均 生 活 消费 支出 


地 区 X, X, X, X, X; X, X, X, 
北京 1878.95 451.63 859.37 303.46 698.14 844.08 575.80 113.06 
К 1212.62 265.30 664.43 122.41 441.32 315.59 263. 24 56. 14 
河北 915.50 167.87 531.66 115.84 285.70 265.38 166. 34 47. 03 
山西 867.65 227.61 305.02 98.29 224.23 339.75 142.66 48. 03 
内 蒙古 1082.07 184.60 352.85 98.02 361.83 398.47 232.76 61. 38 
辽宁 1162.53 242.98 509.66 112.22 337.08 354.59 267.86 79. 94 
吉林 1082.28 191.16 343.97 105.11 295.99 346.79 256. 28 79. 07 
黑龙 江 923.70 198.96 560.00 79.26 267.05 279.69 253. 84 55. 68 
E% 3 023. 53 417. 57 1 658.07 481.04 779.88 919.94 549.44 176. 52 
江苏 ”1728.99 223.26 641.06 199.48 465.17 544.14 232.30 100.80 
浙江 2 218.88 368.68 1 202.02 288.25 664.81 731.65 459.39 123.47 
安徽 1 045.19 138.37 378.65 116.80 237.15 290.74 165.02 49. 02 
福建 1 621.92 213.31 563.85 167.33 431.40 333.55 162.26 97. 79 
江西 1312.28 131.02 373.42 105.68 250.93 287.51 159.14 56. 62 
ШЖ 1191.32 198.12 548.05 158.73 352.19 408.84 221.80 64. 75 
河南 911.48 159.77 443.59 105.08 220.83 198.58 140. 55 49. 38 
湖北 1278.88 146.69 377.28 135.53 246.07 292.34 172.44 83. 24 
湖南 1 463.33 37.69 420.96 129.80 249.70 341.70 196. 54 73. 60 
广东 1887.17 151.15 633.99 148.60 443.46 303.37 197.00 121.23 
广西 1196.07 79.91 424.88 110.09 239.48 198.17 123.91 41. 45 
海南 1191.00 75.15 252.34 87.86 205.68 238.47 110.92 70. 68 
重庆 1150.98 113.28 254.17 117.98 186.57 189.73 159.68 32. 83 
四 川 1216.19 133.30 328.58 114.13 203.63 196.64 160. 31 42. 26 
贵州 838.42 88.56 265.54 64.91 122.47 138.13 76. 76 32. 28 
云南 1071.13 93.62 435.87 83.81 157.25 177.89 138.16 37.91 
西藏 965.83 184.85 467.79 125.14 104.30 64. 27 54. 37 35. 69 
陕西 850.20 138.59 340.63 94.88 216.66 296.07 195.61 48. 36 
甘肃 865.99 97.23 251.79 78.69 174.60 228.43 127.35 31.41 
青海 938.50 170.81 366. 36 94.69 255.82 118.66 192.77 41. 33 
宁夏 929.15 159.10 414.65 104.32 226.41 168.85 187.60 56. 89 
Н 810. 74 187.03 371. 56 73.04 209.46 157.00 199. 69 33. 85 


数据 来 源 : 中国 国家 统计 局 网 。 


(1) 试 对 该 资料 按 第 3 章 的 多 元 图 示 方 法 进行 直观 分 析 。 
(2) 将 分 析 结 采 跟 书 中 结 采 进行 比较 分 析 。 
(3) 应 用 主 成 分 分 析 进 行 综合 评价 。 
4. 假定 2002 年 我 国 35 个 核心 城市 综合 竞争 力 评价 指标 为 : 
Ху: 国内 生产 总 值 ( 亿 元 ); 
Xi: 一 般 预 算 收 入 ( 亿 元 ) ; 


X,: 固定 资产 投资 (4220); 
X,: 外 贸 进 出 口 〈 亿 美元 ) ; 
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X,: 城市 居民 人 均 可 文 配 收入 (元 ); 
Xs: 人 均 国 内 生产 总 值 (ж); 
X; ; 人 均 贷 款 余额 СЛ) Ó 
城市 X, X, X , X, 
FX 5408.8 717.8 2158.4 726.6 
北京 3 130 534 1814.3 872.3 
广州 3001.7 245.9 1001.5 525.1 
深圳 2239.4 303.3 478.3 279.3 
天 津 2022.6 171.8 811.6 228.3 
重庆 1 971. 1 157. 9 995. 7 17.9 
杭州 1 780 118. 3 769.4 131.1 
成 都 1 663. 2 78. 3 702.1 20.8 
青岛 1518.2 100.7 367.8 169.3 
THÉ 1500.3 111.8 741.2. 122.7 
武汉 1 493.1 85.8 570. 4 22 
X3 1 406 98. 7 601.3 146 
沈阳 1 400 92.5 402 28.6 
南京 1 295 144.1 602. 9 10.1 
哈尔滨 1 232.1 67.7 361. 1 17.1 
济南 1 200 66.3 404. 7 14. 9 
石家庄 1 184 44. 5 412.3 11.4 
福州 1 160. 2 60. 2 284 61 
长 春 1 150 37.8 320. 5 28.9 
郑州 926. 8 54. 2 340 10. 4 
西安 823. 5 60.1 338.2 18. 7 
长 沙 810. 9 46.1 362. 6 16.6 
昆明 730 54.7 290 13.4 
厦门 648. 3 64. 3 211.7 151.9 
南昌 552 TT 137 9.1 
太原 432. 2 26. 8 147. 6 15.1 
合肥 412. 4 29.1 168. 6 23 
E 386. 8 21.1 194. 5 5.1 
南宁 356 26. 2 122.9 5.5 
乌鲁木齐 354 373 147. 9 6.4 
贵阳 336. 4 33 187. 4 5.7 
呼和浩特 300 16.6 131.3 3.4 
海口 157.9 8.5 82.6 11.3 
银川 133 11.1 73 23 
西宁 121. 3 1.2 77.4 l 


资料 来 源 : (2003 年 中 国 统计 年 鉴 》。 
(1) 求 样本 相关 阵 R 及 特征 根 和 特征 向 量 。 


X, 
13 250 
12 464 
13 381 
24 940 

9 338 
7 238 
11 778 
8 972 
8 72] 
12 970 
7 820 
8 200 
7 050 
9 13r 
7 004 
8 982 
7 230 
9 191 
6 900 
7 772 
7 184 
9 021 
7 381 
11 768 
7 021 
7 316 
7 144 
6 555 
8 796 
8 653 
7 306 
6 996 
8 004 
6 848 
6 444 


Xs 
36 206 
24 077 
38 568 

136 071 
20 443 
9 038 
38 247 
20 111 
26 961 
35 446 
16 206 
29 706 
19 407 
27 128 
18 244 
25 192 
25 476 
31 582 
21 336 
16 028 
15 493 
23 942 
24 109 
38 567 
18 388 
12 821 
17 770 
15 051 
16 121 
17 655 
11 728 
11 789 
23 920 
11 975 
6 676 


o 


(2) 确定 前 两 个 主 成 分 所 解释 的 总 样本 方差 的 比例 ， 并 解释 这 些 主 成 分 。 
(3) 对 这 35 个 核心 城市 的 综合 竞争 力 进行 综合 排名 。 
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5. 广东 邮政 和 通信 事业 发 展 状 况 分 析 。 

为 了 适应 市 场 经 济 发 展 的 要 求 ， 我 国 邮电 部 门 几经 改革 和 调整 ， 从 邮电 合 一 到 邮电 
分 营 ， 再 到 电信 重组 。 一 个 地 区 现代 化 发 展 程 度 的 一 项 重要 衡量 标准 就 是 它 的 邮政 和 通 
信 事 业 发 展 情况 。 当 今世 界 上 的 主要 现代 化 国家 和 地 区 也 是 邮政 和 通信 事业 相当 发 达 的 
地 区 。 广 东 省 作为 我 国 现代 化 进程 最 快 的 地 区 之 一 ， 肩 负 着 率先 走向 现代 化 的 历史 使 命 ， 
所 以 研究 该 省 邮电 事业 的 发 展 情况 就 显得 十 分 必要 。 此 外 ， 邮 政和 通信 和 是 重要 的 国民 经 
济 部 门 ， 与 人 民 大 众 密切 相关 ， 关系 到 人 民 群 众 切身 利益 的 问题 ， 可 见 ， 研 究 邮 电 事 业 
的 发 展 无 论 何 时 都 是 一 项 重大 的 课题 。 

这 里 主要 作 区 域 分 析 ， 研 究 的 是 广东 21 个 地 级 市 的 邮政 和 通信 事业 发 展 情况 。 影 响 
邮政 和 通信 事业 发 展 情况 的 指标 很 多 ,综合 考虑 指标 的 性 质 和 影响 程度 以 及 指标 数据 获 
取 的 难度 后 ， 这 里 选取 了 以 下 指标 : 

X, : 邮政 业务 收入 ( 亿 元 ); 

X,: KA (万 件 ); 

Ху: 特快 专递 (万 件 ); 

X,: 电信 业务 收入 〈( 亿 元 ); 

X,: 固定 电话 用 户 数 (万 户 ); 

Xe: 年 末 移 动 电话 用 户 数 (JP); 

X,: 国际 互联 网 用 户 数 (万 户 )。 


各 指标 数据 如 下 表 所 示 ， 

城市 X, X, X, X, X, X, X, 
广州 11.85 26633.42 835. 49 236. 43 482. 39 1017.62 234.16 
深圳 10. 10 16 029.35 590. 54 255.91 387.27 986.00 231. 31 
珠海 1.66 3 176.54 113. 26 23. 27 68. 34 180. 90 19. 55 
汕头 1. 60 3 047. 58 52. 64 35. 85 146. 22 191.31 15. 24 
佛山 4. 04 9 556.49 275.09 69. 52 227. 21 566. 43 48. 48 
ix 0. 59 2 243. 63 26. 52 7.29 44. 20 14. 05 3. 07 
河源 0. 20 580. 25 16. 18 1. 23 12. 09 20. 21 3. 37 
梅州 0. 30 920. 78 27. 15 5.70 15. 08 20. 47 3. 37 
惠州 0. 89 1 613. 35 57. 24 5.70 79. 09 129. 50 8.96 
汕尾 0. 15 463. 49 13. 85 17. 85 12. 32 18. 04 0. 47 
£ 5.31 10 205.26 235.01 44. 83 274. 37 841. 05 50. 42 
中 山 2. 00 9 327.77 130.42 32. 05 119. 52 243. 45 31.81 
江门 1.09 9 395.34 108.88 6. 76 98. 65 39. 88 11. 08 
阳江 0. 35 1 053. 69 17. 35 6. 02 22.22 39. 88 1.27 
湛江 0. 65 2 861. 76 43. 20 10. 86 55. 32 73. 56 12. 25 
茂名 0. 43 3 584. 10 44. 15 9.78 30. 53 39. 88 2. 68 
a pc 0. 30 1 722.02 35. 82 8.71 27.71 51. 08 9. 75 
清远 0. 18 996. 56 17. 68 7.91 18. 24 32. 88 3. 07 
潮州 7.41 1 175. 69 15. 69 16. 69 14. 09 10. 55 4.23 
揭阳 0. 33 1 558. 04 20.41 1.67 26. 57 70. 44 2. 06 
云浮 0. 23 568. 83 12. 84 2. 10 13. 50 12. 72 2. 68 


资料 来 源 :《 广 东 省 统计 年 鉴 2005》。 


9 因子 分 析 及 R 使 用 


【 目的 要 求 】 要 求学 生 了 解 因子 分 析 的 目的 和 实际 意义 ， 特 别 是 因子 分 析 模 型 的 统计 
思想 ; 要 熟悉 因子 分 析 数 学 模型 建 模 的 假设 条 件 和 各 个 分 量 的 实际 统计 意义 ; 掌握 由 主 
因子 方法 估计 因子 载荷 阵 的 推导 步骤 ， 以 及 重要 的 基本 性 质 ; 能 够 利用 计算 机 软件 ， 自 
己 编 程 解决 实际 问题 中 的 因子 分 析 问 题 ， 同 时 能 给 出 初步 的 统计 分 析 报告 。 

【教学 内 容 】 因子 分 析 模 型 的 基本 思想 ， 因 子 分 析 模型 与 主 成 分 分 析 模 型 在 本 质 上 的 
区 别 ; 因子 分 析 的 数学 模型 、 基 本 假定 ， 因 子 载荷 阵 的 估计 方法 ， 因 子 旋 转 ， 因 子 得 分 ; 
因子 旋转 (主要 是 方差 最 大 正 交 旋转 方法 ) 与 因子 得 分 的 实际 统计 意义 和 它们 的 数学 表 
ik X; 计算 程序 中 有 关 因 子 分 析 的 算法 基础 。 


91 因子 分 析 的 思想 


主 成 分 分 析 通 过 线性 组 合 将 原 变 量 综合 成 几 个 主 成 分 ， 用 较 少 的 综合 指标 来 代替 原 
来 较 多 的 指标 《变量 ) 。 在 多 变量 分 析 中 ， 茶 些 变量 间 往 往 存 在 相关 性 。 是 什么 原因 使 变 
量 间 有 关联 呢 ? 是否 存 在 不 能 直接 观测 到 的 、 但 会 影响 可 观测 变量 变化 的 公共 因子 呢 ? 
因子 分 析 (factor analysis) 就 是 寻找 这 些 公 共 因 子 的 模型 分 析 方 法 ， 它 是 在 主 成 分 的 基 
础 上 构筑 大 干 意义 较为 明确 的 公 因子 ， 以 它们 为 框架 分 解 原 变量 ， 以 此 考察 原 变量 间 的 
联系 与 区 别 。 

例如 ， 随 着 年 龄 的 增长 ， 儿 童 的 身高 、 体 重 会 跟着 变化 ， 它 们 具有 一 定 的 相关 性 。 
身高 和 体重 之 间 为 何 会 有 相关 性 呢 ? 因为 存在 着 一 个 同时 支配 或 影响 身高 与 体重 的 生长 
因子 。 那 么 ， 我 们 能 和 否 通过 多 个 变量 的 相关 系数 和 矩阵 的 研究 ， 找 出 同时 支配 或 影响 所 有 
变量 的 共性 因子 呢 ? 因子 分 析 就 是 从 大 量 的 数据 中 “由 表 及 里 ”、“ 去 粗 取 精 ”， 寻 找 影 
啊 或 支配 变量 的 多 变量 统计 方法 。 

又 如 ,假设 我 们 要 研究 影响 人 们 对 生活 满意 度 的 潜在 因子 ， 为 此 对 有 关 项 目 进行 问 
卷 调查 ， 其 包括 三 项 工作 方面 和 三 项 家 庭 方 面 的 满意 度 调查 。 由 于 三 项 工作 满意 度 调查 
项 目 之 间 具 有 和 较 高 的 相关 性 ， 三 项 家 庭 满 意 度 调查 项 目 之 间 也 具有 较 高 的 相关 性 ， 因 此 
工作 满意 度 调查 项 目 与 家 庭 满意 度 调 查 项 目 之 间 的 相关 性 较 低 。 假 定 可 以 用 变量 间 的 相 
关 性 把 它们 分 组 ， 也 即 假设 在 一 个 特定 组 内 的 所 有 变量 之 间 是 高 度 相关 的 ， 而 与 不 同 组 
内 的 变量 却 有 较 小 的 相关 性 。 可 想 而 知 ， 各 组 变量 可 以 找到 潜在 的 单一 因子 对 观察 到 的 
相关 指标 负责 。 因 而 ， 一 组 变量 存在 一 个 潜在 的 因子 一 一 工作 满意 度 ， 另 一 组 变量 对 应 
男 一 个 潜在 因子 一 一 家 庭 满意 度 ， 且 两 个 因子 相对 独立 。 对 于 问卷 的 回答 显然 有 赖 于 所 
找到 的 两 个 潜在 因子 。 而 且 ， 每 一 调查 项 目 线 性 依赖 于 这 两 个 潜在 的 因子 和 每 一 调查 项 
目 独 有 的 特殊 因子 。 

可 以 说 ， 因 子 分 析 是 主 成 分 分 析 的 推广 ， 也 是 一 种 把 多 个 变量 化 为 少数 几 个 综合 变 
量 的 多 变量 分 析 方 法 ， 其 目的 是 用 有 限 个 不 可 观测 的 隐 变 量 来 解释 原始 变量 之 间 的 相关 
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关系 。 i 

因子 分 析 的 主要 用 途 在 于 : 中 减少 分 析 变 量 个 数 ; @) 通 过 对 变量 间 相 关 关 系 的 探测 , 
将 原始 变量 进行 分 类 。 即 将 相关 性 高 的 变量 分 为 一 组 ， 用 共性 因子 代替 该 组 变量 。 

就 统计 上 而 言 ， 主 成 分 分 析 所 侧重 的 是 如 何 “ 转 换 ” 原 始 变 量 使 之 成 为 一 些 综合 
的 新 指标 ， 其 关键 在 于 “变异 数 ” 问 题 。 与 主 成 分 分 析 不 同 的 是 ， 因 子 分 析 重 视 的 是 如 
何 解决 变量 之 间 的 “ 共 变 异 数 ” 问 题 。 因 为 每 一 反应 变量 均 为 一 些 “ 共 同 因子 变量 ”和 
“特殊 性 变量 ”的 线性 函数 。 其 中 “共同 因子 变量 ”可 产生 反映 变量 之 间 的 共 变 量 ， 而 
特殊 性 变量 部 分 则 只 对 其 所 属 的 变量 之 变异 数 有 所 贡献 ， 所 以 主 成 分 分 析 是 “变异 数 ” 
导向 的 方法 ， 因 子 分 析 则 是 “ 共 变 异 数 ”导向 的 方法 。 

因子 分 析 也 是 数据 缩减 的 一 种 多 变量 分 析 方 法 ， 它 是 基于 信息 损失 最 小 化 而 提出 的 
一 种 非常 有 效 的 方法 。 它 把 众多 的 指标 综合 成 为 较 少 的 几 个 公共 指标 ， 这 些 指标 即 因子 。 
因子 的 特点 是 : 第 一 ， 因 子 变 量 的 数量 远 远 少 于 原始 变量 的 个 数 ; 第 二 ， 因 子 变量 并 非 
原始 变量 的 简单 取舍 ， 而 是 一 种 新 的 综合 ; 第 三 ， 因 子 变量 之 间 没 有 线性 关系 ; 第 四 ， 
因子 变量 具有 明确 的 解释 性 ， 可 以 最 大 限度 地 发 挥 专业 分 析 的 作用 。 因 子 分 析 就 是 以 最 
小 的 信息 损失 ， 将 众多 的 原始 变量 浓缩 成 为 少数 几 个 因子 变量 ， 使 得 变量 具有 更 高 的 可 
解释 性 的 一 种 数据 缩减 方法 ， 是 多 变量 分 析 的 主干 技术 之 一 。 
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1. 模型 的 提出 

因子 分 析 法 是 从 研究 变量 内 部 相关 的 依赖 关系 出 发 ， 把 一 些 具 有 错综复杂 关系 的 变 
量 归 结 为 少数 几 个 综合 因子 的 一 种 多 变量 统计 分 析 方 法 。 它 的 基本 思想 是 将 观测 变量 进 
行 分 类 ， 将 相关 性 较 高 ， 即 联系 比较 紧密 的 分 在 同一 类 中 ， 而 不 同类 变量 之 间 的 相关 性 
则 较 低 ， 那 么 每 一 类 变量 实际 上 就 代表 了 一 个 基本 结构 ， 即 公共 因子 。 对 于 所 研究 的 问 
题 ， 试 图 用 最 少 个 数 的 不 可 测 的 公共 因子 的 线性 图 数 与 特殊 因子 之 和 来 描述 原来 观测 的 
每 一 分 量 。 

可 以 把 因子 分 析 看 成 是 主 成 分 分 析 的 推广 ， 即 可 从 研究 相关 怎 阵 内 部 的 依赖 关系 出 
发 ， 把 一 些 具 有 错综复杂 关系 的 变量 归结 为 少数 几 个 综合 因子 。 它 还 可 用 于 对 变量 或 样 
本 进行 分 类 处 理 。 根 据 因 子 得 分 值 ， 在 因子 轴 所 构成 的 空间 中 把 变量 或 样本 点 画 出 来 ， 
达到 形象 直观 的 分 类 目的 。 研 究 样本 间 的 相互 关系 的 因子 分 析 称 为 Q 型 因子 分 析 ， 而 研 
究 变 量 间 相 互 关系 的 因子 分 析 称 为 R 型 因子 分 析 ， 下 面 主要 讨论 并 运用 的 是 R 型 因子 
分 析 。 

2. 因子 分 析 模 型 

(1) X=(x,,x,,""*",x,) 是 可 观测 随机 向量 ， 均 值 向 量 E( X) =0， 协 方差 阵 Cov( X) 
=}, НЕВЕ У УНЕ RAT (只 要 将 变量 标准 化 即 可 实现 ) 。 

(2) F=(F,, Fis, Fn) (mm<P) 是 不 可 测 的 向 量 ， 其 均值 向 量 E( F) =0， 协 方差 矩 
阵 Coo( F) =7， 即 向 量 的 各 分 量 是 相互 独立 的 。 

(3) =(si,e,…,2) 5 F HEMA, Н E(e) 20, = ЮЭ РЕ У ХРА РЕ, ВП 
各 分 量 є 之 间 是 相互 独立 的 ， 则 模型 如 下 : 
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x, =a, Е, +а„Ё, + +a Е. +e, 


Xa =a, ËF, +a, F, + °° +a, F, + =, 


x,za,F, +а, Е + ta, ЕЁ, +6, 
此 为 因子 分 析 模 型 ， 由 于 该 模型 是 针对 变量 进行 的 ， 各 因子 又 是 正 交 的 ， 所 以 也 称 
为 R 型 正 交 因子 模型 。 
其 矩阵 形式 为 : X=AF +e 


其 中 : 
X а а, "U* аһ F, 81 
x a, а . G, F € 
р и F en Шы "|,F=| ^ Les| 2 
X, а Goa ` аж fa E, 
这 里 ， 
(1) mx p, 


(2) Co(F,e) 20, ЕЖ е 是 不 相关 的 。 
(3) Var(F) =1,, Bl Fi, Е,, 0, Е, 不 相关 ， 且 方差 均 为 1。 
с 0 


D(e) = Var( ë) = ‚Ёа, s, ，…，e, 不 相关 ， 且 方差 不 同 。 


0 c, 
我 们 把 F Fx X 的 公共 因子 或 潜在 因子 ， 和 矩阵 4 称 为 因子 载荷 矩阵 ，e PRA X 的 特 
RAF, A= (a), a 为 因子 载荷 。 数 学 上 可 以 证 明 ， 因 子 载荷 a 就 是 第 i 个 变量 与 第 j 


个 因子 的 相关 系数 ,反映 了 第 i 个 变量 在 第 j 个 因子 上 的 重要 性 。 


9.3 ”因子 载 答 的 信 计 及 解释 


9.3.1 主因 子 估 计 法 


要 建立 实际 问题 的 因子 模型 ， 关 键 是 要 根据 样本 数据 估计 因子 的 载荷 矩阵 ， 其 中 最 
为 普遍 的 方法 是 主因 子 法 (也 称 主 成 分 法 )。 

设 随机 向 量 X 的 协 方 差 阵 为 > ，A| 宇 A, 宇 … 宇 A, >0 为 了 的 特征 根 , ш, ш, +, u 
为 对 应 的 标准 正 交 化 特征 向 量 ， 则 根据 线性 代数 知识 ，Z 的 谱 分 解 为 : 


МА зи", 
А.и! 
2: = ЖАщи', zt AL Д V Aqu, ~, А,и,) ex 2 


ApL 
上 面 的 分 解 式 是 当 因 子 个 数 与 变量 个 数 一 样 多 ， 特 殊 因 子 方 差 为 0 时 ， 因 子 模型 中 
协 方差 阵 的 结构 。 
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此 时 因子 模型 为 =AF， 其 中 的 方差 Var (F) =1,, РЕ Var(X) = Var(AF) = 
AVar( F)A' = АА’, ВПУ, = АА’, ХЇН У ЛМК, ДИР ТРЕ А 的 第 j 列 应 该 是 Аш, 
也 就 是 说 除 常 数 VA 外 ， 第 7 列 因子 载荷 恰好 是 第 j 个 主 成 分 的 系数 ， 故 该 估计 方法 称 为 
主 成 分 法 。 

上 边 给 出 的 是 王 的 精确 表达 式 ， 但 实际 中 总 是 希望 公共 因子 数 m 小 于 变量 个 数 p, 
当 最 后 p - m 个 特征 根 较 小 时 ， 可 省 略 ， 即 


Аџи’, 

/ Аи"; , 

> = ( А, ш, Аи, À mim) . = AA 
А.и’, 


上 式 也 表示 了 在 因子 分 析 模 型 中 特殊 因子 是 不 重要 的 ， 在 计算 中 可 将 其 忽略 掉 。 
如 果 需 要 考虑 特殊 因子 的 作用 ， 此 时 协 方差 阵 可 分 解 为 : 


ZÀ u, gi 0 

СЕТ, 0? 

У, = АА’ +) = (ХА щш, Ази, ***, /А„и„) d T | 
JA 0 Tn 


通常 D 是 未 知 的 ， 需 事先 估计 ， 这 样 主因 子 法 的 使 用 就 比 主 成 分 法 困难 些 。 

当 了 未 知 时 ， 可 用 样本 协 方差 阵 去 代替 ， 如 果 数 据 已 经 标准 化 ， 则 此 时 协 方差 阵 与 
相关 阵 RC =X'X) 相 同 ， 仍 可 作 上 面 类 似 的 表示 。 

于 是 可 得 因子 载 集 阵 的 估计 4= (a;)， 即 

A-(a,,2a,,::,2,) = ( JA и, . V Agus sss, Ас.) 

从 以 上 分 析 可 知 : 中 主 成 分 分 析 的 数学 模型 实质 上 是 一 种 变换 ， 而 因子 分 析 模 型 是 
描述 原 变量 X 的 协 方差 阵 工 结构 的 一 种 模型 ; @ 主 成 分 分 析 中 每 个 主 成 分 相应 的 系数 а, 
是 唯一 确定 的 ， 而 在 因子 分 析 中 每 个 因子 的 相应 系数 不 是 唯一 的 ， 即 因子 载荷 阵 不 是 唯 
一 的 。 


9.3.2 极 大 似 然 估 计 法 


如 果 假 定 公 共 因 子 F 和 特殊 因子 e 服从 正 态 分 布 ， 则 可 以 得 到 因子 载荷 的 极 大 似 然 
估计 。 设 х, x, `, z, 为 来 自 正 态 总 体 М, (и, У) ВЕЛЕЖ, ЖР У =A +D, 

从 似 然 孙 数理 论 知 : 

(џи, y> )= (2m) -np/2 | YI тл Vl È jD у) а-а) E-a] 

它 通过 依赖 于 4 和 刀 ， 但 上 面 的 似 然 函 数 并 不 能 唯一 确定 4， 为 此 ， 需 添加 如 下 条 
fF: 'D 4=A， 其 中 A 是 一 个 对 角 阵 。 

通过 用 数值 极 大 化 的 方法 可 以 得 到 4 和 D 的 极 大 似 然 估计 4、D， 现 在 已 有 许多 现成 
的 计算 机 程序 可 以 得 到 这 些 估计 。 

9.3.3 ТЈ И 


ВНУТ ES Foe, FQOMEINCTERUAGEINT. АЕТ ЛАЛЕ А RS 
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表达 式 中 都 出 现 的 因子 ， 是 相互 独立 的 不 可 观测 的 理论 变量 。 公 共 因 子 的 含义 ， 必 须 结 
合 具体 问题 的 实际 意义 而 定 。ei ，s,，，…，6, 叫 特殊 因子 ， 是 向 量 x 的 分 量 x (i = 1， 
2,…,p) 所 特有 的 因子 ， 各 特殊 因子 之 间 以 及 特殊 因子 与 所 有 公共 因子 之 间 都 是 相互 独 
立 的 。 

一 、 因 子 载荷 a; 的 统计 意义 

在 因子 分 析 模 型 中 ， 载 荷 算 阵 4 中 的 元 素 (ay ) 为 因子 载荷 。 因 子 载荷 aidé xt 万 的 
协 方差 ， 也 是 x; 与 五 的 相关 系数 ， 它 表示 x ОВАР 万 的 程度 。 可 将 a; 看 作 第 i 个 变量 在 
第 j 个 公共 因子 上 的 权 数 ，aj 的 绝对 值 越 大 ( | a; 1 <1), 表明 x, 5 石 的 相依 程度 越 大 ， 
或 称 公共 因子 对 于 x 的 载荷 量 越 大 。 其 关系 证 明 如 下 : 


cov( x, ,F;) -cov| Zaa F, + &;,F;] 


= cov[ X a,F, ,F,] *cov( ej, F;) 
-a; 
如 果 对 x; 作 了 标准 化 处 理 ， 则 x; 的 标准 差 为 1!， 且 F 的 标准 差 为 1， 于 是 
2 cov( x; , Е.) 
I VDGODCE) 
二 、 共 同 度 和 方差 贡献 
为 了 得 到 因子 分 析 结 果 的 经 济 解释 ， 因 子 载荷 矩阵 4 中 有 两 个 统计 量 十 分 重要 ， 即 
变量 共同 度 和 公共 因子 的 方差 贡献 。 
由 因子 分 析 模 型 ， 当 仅 有 一 个 公共 因子 下 时 ，x 的 方差 也 可 分 解 为 两 部 分 : 
Var(x,) = Var(a,F) + Var( &,) 
由 于 数据 已 标准 化 ， 所 以 上 式 左 端 等 于 1， 右 端 两 项 分 别 记 为 共性 方差 和 个 性 方差 。 
h? = Var(a,F) = a?Var(F) =a; 
о; = Var(&,) 
从 而 有 hi +oi =1， 共 性 方差 越 大 ， 说 明 共 性 因子 的 作用 越 大 。 选 择 模型 后 ， 接 下 
来 关心 的 是 共性 因子 下 的 实际 含义 ， 这 可 以 通过 各 变量 在 共性 因子 上 载荷 的 符号 与 绝对 
值 的 大 小 来 描述 。 
因子 载荷 矩阵 A 中 第 i 行 元素 之 平方 和 记 为 h; ， 称 为 变量 x; 的 共同 度 。 


2 2 2 2 
hi =a, +а t +a, 


= cov( x, ,F;) =a; 


h; = а + а>, Te +a, 


$us 2 2 
h, =a, +a + +a, 


它 是 全 部 公共 因子 对 x; 的 方差 所 作出 的 贡献 ， 反映 了 全 部 公共 因子 对 变量 x; 的 影响 。 
h; 越 大 表明 x 的 第 i 个 分 量 x; 对 于 F 的 每 一 分 量 F，F,，…，F, 的 共同 依赖 程度 越 大。 

将 因子 载荷 矩阵 4 的 第 j 列 ( j=1,2,…,m) 的 各 元 素 的 平方 和 记 为 g; ， 称 为 公共 因 
T ЕХ х 的 方差 贡献 。 
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2 2 2 2 
gi Fau +а t +a 
2 2 2 2 
82 = 4 tan 十 "… tan 
2 


_ m 2 2. 2 
Em = 01, +a, t 十 Gpm 


g; 就 表示 第 7 个 公共 因子 对 于 x 的 每 一 分 量 *;(i=1,2,…,p) 所 提供 方差 的 总 和 ， 
它 是 衡量 公共 因子 相对 重要 性 的 指标 。g; 越 大 ， 表 明 公 共 因 子 五 对 x 的 贡献 越 大 ， 或 者 
说 对 x 的 影响 就 越 大 。 如 果 将 因子 载荷 矩阵 4 的 所 有 g;( j=1,2,…,m) 都 计算 出 来 ， 将 
其 按照 大 小 排序 ， 就 可 以 依 此 提炼 出 最 有 影响 力 的 公共 因子 。 


因子 分 析 函 数 factanal( ) 的 用 法 


factanal( X, factors, scores = c( " none" , " regression" , " Bartlett" ) ‚rotation = " varimax" , +++) 


X 为 数值 矩阵 或 数据 杠 


factors 为 因子 个 数 
scores 为 因子 得 分 的 计算 方法 ,包括 "regression" , " Bartlett" 
rotation 为 因子 旋转 方法 
注 ; 该 函数 是 基于 极 大 似 然 方 法 来 求解 的 。 
Н ARES TAB PRÉC factpe( ) 的 用 法 


factpc < – function( X, m =2,scores = c( " none" , " regression" ) „rotation = " varimax" ) 
X 为 数值 矩阵 或 数据 杠 

m 为 因子 个 数 

scores 为 因子 得 分 的 计算 方法 

rotation 为 因子 旋转 方法 


Е: 该 函数 是 基于 主因 子 方 法 来 求解 的 。 


【 例 9 -1】 水 泥 行业 上 市 公司 经 营业 绩 因子 模型 实证 分 析 。 

如 何 客观 、 准 确 地 评价 企业 经 营业 绩 是 多 年 来 一 直 未 能 很 好 解决 的 问题 ， 由 于 企业 
的 经 营业 绩 是 多 种 因素 共同 作用 的 结果 ， 其 众多 的 财务 指标 为 分 析 上 市 公司 经 营业 绩 提 
供 了 丰富 的 信息 ,但 同时 也 增加 了 问题 分 析 的 复杂 性 。 由 于 各 指标 之 间 存 在 着 一 定 的 相 
关 关 系 ， 因 此 可 以 用 因子 分 析 方 法 将 较 少 的 综合 指标 分 别 综合 存在 于 各 单独 指标 的 信息 
中 ， 而 综合 指标 之 间 彼 此 不 相关 ， 即 各 综合 指标 代表 的 信息 不 重合 ,代表 各 类 信息 的 综 
合 指标 即 为 因子 。 本 例 以 上 市 公司 中 的 水 泥 行 业 为 例 ， 研 究 因子 分 析 方 法 在 公司 经 营业 
绩 评 价 分 析 中 的 应 用 。 

1. 评价 指标 的 选择 

现代 企业 经 营业 绩 综 合 评价 的 内 容 主要 有 熏 利 能 力 、 偿 债 能 力 ， 此 外 还 有 发 展 能 力 。 
常用 的 盈利 能 力 指标 有 主 营业 务 利润 率 、 净 资产 收益 率 、 销 售 毛利 率 和 净值 报酬 率 ， 偿 
债 能 力 有 自 有 流动 比率 、 速 动 比率 、 现 金 比率 、 资 产 负债 率 等 ， 发 展 能 力主 要 有 主人 营业 
务 收入 增长 率 、 营 业 利 润 增长 率 、 净 利润 增长 率 。 

2. 数据 整理 和 标准 化 

根据 中 国 上 市 公司 的 资料 ， 截 至 2003 年 底 ， 水 泥 行业 上 市 公司 有 14 Ж, 依据 上 市 
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公司 披露 的 财务 信息 ， 按 照 前 述 指标 要 求 ， 收 集 2003 年 中 期 的 各 项 经 营 指标 数据 如 
49-1, 


X 9-1 原始 经 营 指标 数据 表 单位 : % 
股票 证 券 主 营 业务 MESE 速 动 资产 负 主 营 业务 收 ” 营 业 利 润 
代码 简称 利润 率 x, 利率 x, 比率 x, 债 率 x。 ЛЖКЖх, 增长 率 x。 
000401 WKK 33. 80 34. 75 0. 67 59. 77 15. 49 16. 35 
000673 Ж Ж 27. 54 28. 04 2. 36 35.29 – 20. 96 – 46. 45 
000935 四川 双 马 22. 86 23. 47 0.61 42. 83 5. 48 – 49. 22 
600173 “牡丹江 19. 05 19. 95 1.00 48. 51 - 12. 32 - 65. 99 
600291 ЖЖ 20. 84 21. 17 1. 08 48. 45 65. 09 54. 81 
600539 ” 狮 头 股份 28. 14 28. 84 2.51 24. 52 -6.43 - 15. 94 
600553 ”太行 股份 30. 45 31. 13 1. 02 46. 14 6. 57 - 16. 59 
600585 ”海螺 水 泥 36. 29 36. 96 0. 27 58. 31 70. 85 117. 59 
600668 ”尖峰 集团 16. 94 17. 26 0.61 52. 04 9.03 -94. 05 
600678 ”四 川 金 顶 28. 74 29. 40 0. 60 65. 46 -33. 97 -55. 02 
600720 “祁连山 33. 31 34. 30 1. 17 45. 80 12. 18 39. 46 
600801 ”华新 水 泥 25. 08 26. 12 0. 64 69. 35 22. 38 - 10. 20 
600802 ”福建 水 泥 34.51 35.44 0.38 61.61 23.91 -163. 99 
600829 ”天 笋 股份 25. 52 26. 73 1.10 47. 02 -4.51 -68.79 


数据 来 源 : 中 国 上 市 公司 资讯 网 (www. cnlist com), 


3. 计算 相关 系数 矩阵 

在 评价 指标 体系 中 ， 观 测 数据 很 多 ， 因 此 指标 之 间 不 可 避免 地 存在 多 重 共 线 性 问题 。 
因此 有 必要 先 计算 观 测 数据 的 相关 和 矩阵 (以 下 计算 均 采 用 R 语言 ) ， 各 财务 指标 的 相关 
AR PE A TF: | 


wes... -......-.Á...-Á......-......Á....Á........... i че ч} ж чш чк ж == = ч чш тот отш жон тт тот чт тот тт от точт от от отт отот тє т от тт э i 


m mvstats. xls : d9. 1 中 选取 A1: G15 X Is ,然后 拷贝 
> X = read. table( " clipboard" , header = T) 


| 

| 
i 
,> cor( X) | 
х1 х2 х3 х4 х5 x6 i 
' xl 1. 0000 0. 999 - 0. 0997 0. 1885 0. 201 0. 2978 ' 
I I 
' x2 0. 9992 1. 000 -0. 1042 0. 1967 0. 190 0. 2875 ' 
! x3 0. 0997 – 0. 104 1.0000 -0.8372 — 0. 409 0. 0152 i 
: x4 0.1885 0. 197 - 0. 8372 1. 0000 0. 259 - 0. 0293 ' 
I I 
' x5 0.2010 0. 190 — 0. 4088 0. 2585 1. 000 0. 5803 ' 
! x6 0.2978 0. 287 0.0152 -0.0293 0. 580 1. 0000 i 


一 mm 人 


从 上 面 的 相关 短 阵 可 以 看 出 ， 主 营业 务 利润 率 *, 与 销售 毛利 率 o PARER, E 
动 比率 x, 与 资产 负债 率 x, 呈 较 强 的 负 相 关 ， 主 营业 务 收 入 增长 率 x; 和 营业 利润 增长 率 xs 
呈 中 度 相 关 。 为 了 消除 各 财务 指标 之 间 的 相关 性 ， 采 用 因子 分 析 方 法 提取 因子 。 
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4. 计算 特征 值 、 因 子 载荷 及 共同 度 
在 R 软件 上 进行 数据 计算 ,选择 用 极 大 似 然 法 提取 公共 因子 ,得 到 如 下 结果 : 


# 极 大 似 然 法 进行 因子 分 析 
> (FAO = factanal( X,3 ,rot = " none" ) ) 
Call; factanal(x = X, factors 23, rotation = " none" ) 
!  Uniquenesses; 
х1 х2 х3 х4 х5 хб 


0.005 0.005 0.005 0.271 0.005 0.548 


|  Loadings: 
Factorl Factor2 Factor3 
хі 0.950 -0.307 
х2 0.948 -0.310 
x3 -0.340 -0.782 0. 517 


x4 0.363 0.561  -0.531 
x5 0.454 0. 693 0. 556 
x6 0.383 0. 163 0. 527 
Factorl Factor2 Factor3 


l 
b 
I 
' 
' 
' 
I 
k 
А 
' 
. 
' 
' 
1 
1 
t 
' 
I 
А 
LI 
LI 
`. 
' 
1 
" 
I 
' 
' 
1 
i 
. 
I 
' 
I 
' 
' 
1 
n 
' 
1 
LI 
' 
' 
| 
' 
' 
I 
' 
' 
' 
. 
1 
1 
' 
' 
1 
1 
' 
I 


SS loadings 2.4 [. 623 1. 140 

Cumulative Var 0.4 0.671 0. 861 
: The degrees of freedom for the model is 0 and the fit was 1. 1422 
# 主 成 分 法 进行 因子 分 析 


' > library( mvstats ) 
I 
;> Fac = factpc(X,3) 


x4 0. 5951 -0.6990 -0.2415 
x5 0.6317 —0. 1457 0. 6557 
x6 0.5084 0.3367 0. 6943 


аннан ЗН АЦЕ ТТТГЕГТГГЕГТТГТГТЕТТТТТРТГРТТ ТТЕ ТГТГРЕРРО ТЕ РТРТТРТРРЕ 


由 结果 可 以 看 出 ， 前 三 个 因子 所 解释 的 方差 占 整个 方差 的 86% 以 上 ， 基 本 上 能 全 面 
地 反映 六 项 财务 指标 的 信息 。 所 以 我 们 提取 前 三 个 因子 作为 公共 因子 。 但 各 因子 的 经 济 
含义 并 不 是 很 明显 ， 还 需 进 一 步 分 析 〈 见 下 节 “ 因 子 旋转 方法 ”" ) 。 从 上 面 的 结果 可 以 看 
出 ， 主 因子 法 要 比 极 大 似 然 法 的 提取 效果 好 些 ， 因 为 极 大 似 然 法 要 求 数据 来 自 多 元 正 态 
分 布 ， 这 点 一 般 是 很 难 满足 的 。 


1 
1 
1 
I 
1 
1 
I 
t 
i 
I 
I 
I 
! 
! 
i 
1 
Proportion Var 0.4 0. 271 0. 190 
I 
l 
i 
1 
1 
I 
I 
1 
I 
l 
I 
1 
1 
I 
I 
I 
I 
l 


$ Vars 

: Factor] Factor2 Factor3 
i — SS loadings 2. 5696 1. 7130 1. 2491 
|  Propotion Var 0.4283 0. 2855 0. 2082 
! — Cumulative Var 0.4283 0. 7138 0. 9219 
| $ loadings 

| Factorl Factor2 Factor3 

: xl 0.7829 0.5029 -0.3624 

| x2 0.7811 0.4964 -0.3756 

. x3 -0.5786 0.7685 0.0802 

l 
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94 因子 旋转 方法 


1. 旋转 的 目的 

建立 因子 分 析 模 型 的 目的 不 仅 是 找 出 主因 子 ， 更 重要 的 是 知道 每 个 主因 子 的 意义 ， 
以 便 对 实际 问题 进行 分 析 。 如 果 求 出 主因 子 后 ， 各 个 主因 子 的 典型 代表 变量 不 是 很 突出 ， 
还 需要 进行 因子 旋转 ， 通 过 适当 的 旋转 得 到 比较 满意 的 主因 子 。 

因子 旋转 的 方法 有 很 多 ， 正 交 旋 转 (orthogonal rotation). 和 和 斜 交 旋 转 (oblique rota- 
tion) 是 因子 旋转 的 两 类 方法 。 最 常用 的 方法 是 最 大 方差 正 交 旋转 法 ( Varimax)。 进 行 因 
子 旋 转 ， 就 是 要 使 因子 载荷 矩阵 中 因子 载荷 的 绝对 值 向 0 和 1 两 个 方向 分 化 ， 使 大 的 载 
荷 更 大 ， 小 的 载荷 更 小 。 因 子 旋转 过 程 中 ， 如 果 因 子 对 应 轴 相 互 正 交 ， 则 称 为 正 交 旋 转 ; 
如 果 因 子 对 应 轴 相 互 间 不 是 正 交 的 ， 则 称 为 斜 交 旋转 。 常 用 的 斜 交 旋 转 方法 有 Promax 
法 等 。 

若 已 经 求 得 因子 分 析 模 型 为 X =AF + e, W T = (yi) 为 一 正 交 和 矩阵 ， 作 正 交 变 换 
B =4 太 ， 可 以 证 明 , (В) = 尼 (4) ug (B) = $ yugi (A) Ф B= Cb). 

这 表明 经 过 正 交 旋转 后 ， 共 同 度 h 并 不 改变 , 但 公共 因子 的 方差 贡献 & 不 再 与 原 
来 相同 。 这 样 我 们 就 可 以 对 因子 进行 合理 的 解释 了 。 

对 已 知 的 因子 载荷 矩阵 进行 正 交 变换 的 目的 是 使 各 因子 上 的 载荷 两 极 分 化 ， 也 就 是 
要 使 各 个 因子 上 的 载荷 之 间 方 差 极 大 化 。 由 于 各 个 变量 x, 在 某 因子 上 的 载荷 b; 的 平方 是 
该 因子 对 该 变量 的 共性 方差 h; 的 贡献 ， 而 各 变量 的 共性 方差 h 一 般 又 互 不 相同 ， 若 某 
个 变量 x. 的 共性 方差 h; 较 大 ， 则 分 配 在 各 个 因子 上 的 载荷 就 大 些 ; 反之 ， 则 小 些 。 因 
此 ， 为 了 消除 各 个 变量 的 共性 方差 大 小 的 影响 ， 计 算 某 因子 上 的 载荷 的 方差 时 ， 可 先 将 
各 个 载荷 的 平方 除 以 共性 方差 ， 即 类 似 于 将 其 标准 化 ， 然 后 再 计算 标准 化 后 的 载荷 的 方 
差 ， 记 为 cy = 如 /hi 。 选 择 除 以 h, 是 为 了 消除 各 个 原始 变量 .对 公共 因子 依赖 程度 不 同 的 
影响 ， 而 且 这 样 的 选择 还 不 影响 因子 的 共同 度 。 取 平方 的 目的 是 消除 b, 符 号 不 同 的 影响 。 

对 于 某 一 因子 j， 可 定义 其 载荷 之 间 的 方差 为 : 

і, у робу 165 
yy TCR) Е 35. i >м 
全 部 公共 因子 各 自 载 荷 之 间 的 总 方差 为 ; 


V= XV, 
现在 就 是 要 寻找 一 个 正 交 和 矩阵 厂 ， 经 过 对 已 知 的 载荷 矩阵 4 的 正 交 变换 后 ， 新 的 因 
子 载荷 矩阵 B = АГ 中 的 元 素 能 使 V 取得 极 大 值 。 
2. 如 何 旋 转 
下 面 以 方差 最 大 正 交 旋转 为 例 进行 介绍 。 
先 考虑 两 个 因子 的 平面 正 交 旋转 ， 设 因子 载 答 矩阵 为 : 


0 -sing 
r-e sin 


sin cos 
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显然 I 是 一 个 正 交 阵 。 
acos *a,,sinÜ  —a,,sinÜ + И 


В = АГ = 


b, ' 
b. bo 


a, cos +a sinf -a,sing +a, cosh pl 


先 要 求 总 方差 了 达到 最 大 ， 即 要 求 Y = V, + VW 达到 最 大 ,根据 求 极 值 的 原理 ， 令 
= =0， 经 计算 ， 其 旋转 角度 9 可 按 下 面 公式 求 得 : 


D -2AB/ 
tan4 一 ~ t 4 p __ 
з (А? - В?)/р 


其 中 , A= Xu, B» $v, C= $ (u -) D -2Xus ui = (22) - C22 i = 2252, 

关于 0 的 取 值 范围 和 公式 的 详细 证 明 参见 相关 文献 。 当 mm > 2 时 ， 可 逐次 对 每 两 个 
因子 进行 上 述 旋转 。 

【 例 9 -2】( 续 例 9 -1) 对 例 9 - 1 的 数据 应 用 极 大 似 然 法 进行 因子 旋转 。 

从 例 9 -1 中 的 因子 载荷 矩阵 可 知 ， 各 因子 的 实际 意义 并 不 明显 ， 所 以 有 必要 对 因子 
进行 旋转 ， 以 获得 更 有 意义 的 解释 。 

RO -2 是 采用 最 大 方差 正 交 旋 转 (Varimax) 法 所 得 的 因子 贡献 。 


表 9 -2 Varimax 法 旋转 因子 贡献 
旋转 前 因子 方差 及 其 贡献 旋转 后 因子 方差 及 其 贡献 

因子 方差 贡献 率 ” 累积 贡献 率 方差 贡献 率 ” 累积 贡献 率 
1 2. 400 0. 400 0. 400 1. 998 0. 333 0.333 
2 1. 623 0.271 0. 671 1. 800 0. 300 0. 633 
3 1. 140 0. 190 0. 861 1. 367 0. 228 0. 861 
表 9 -3 旋转 前 因子 载荷 表 9 -4 旋转 后 因子 载荷 

公共 因子 
变量 名 CR  R HN. 变量 名 

x, 0.950 -0. 307 x, 

x, 0. 948 - 0. 310 X 

x, -0.340 -0.782 0.517 x, 

x, 0.363 0.561 -0.531 x, 

Xs 0. 454 0.693 0.556 х, 

х, 0. 383 0.163 0. 527 х, 


表 9 -3 #129 -4 分 别 是 旋转 前 后 的 因子 载荷 。 由 该 因子 载荷 对 比 表 可 以 看 出 ， 旋 
转 前 各 综合 因子 代表 的 具体 经 济 意义 不 是 很 明显 ， 而 旋转 后 各 因子 代表 的 经 济 意 义 则 十 
分 明显 。 因 子 下 在 主 营 业务 利润 率 x, 上 的 载荷 值 达到 0. 983 ， 在 销售 毛利 率 x, 上 的 载荷 
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达到 0. 985。 因 此 ， 因 子 F 1034 MV BS AURI SE ZI, БЕВ My E ERU TOL, EVI 
转 营运 能 力 的 结果 ， 也 是 资金 流动 偿 债 能 力 的 基础 。 因 子 F, 在 速 动 比率 x， 和 资产 负债 率 
x4 上 的 载荷 值 分 别 是 -0. 990 和 0. 844 ， 即 因子 ,代表 了 企业 的 偿 债 能 力 。 类 似 地 ， 因 子 
在 主 营业 务 收 入 增长 率 x; 和 营业 利润 率 xe 上 的 载荷 值 分 别 是 0.953 和 0. 631， 所 以 因子 
F, 代 表 了 企业 的 发 展 能 力 ， 是 反映 企业 持续 经 营 发 展 能 力 的 指标 。 
Call: factanal( x = X, factors 23, rotation = " varimax" ) 
Uniquenesses: 

xl х2 х3 х4 х5 x6 
0.005 0. 005 0. 005 0.271 0.005 0. 548 


Loadings ; 

Factorl Factor2 Factor3 
xl 0. 983 0. 155 
х2 0.985 0. 142 
x3 -0.990  -0.124 
х4 0.127 0. 844 
x5 0. 293 0. 953 
x6 0.210 0. 631 


Factorl  Factor2  Factor3 
SS loadings 1. 998 1.800 1.367 
Proportion Маг 0. 333 0. 300 0.228 
Cumulative Маг 0. 333 0. 633 0.861 


和 
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因子 分 析 模 型 建立 后 ， 还 有 一 个 重要 的 作用 是 应 用 因子 分 析 模 型 去 评价 每 个 样本 在 
整个 模型 中 的 地 位 ， 即 进行 综合 评价 。 例 如 ， 地 区 经 济 发 展 的 因子 分 析 模 型 建立 后 ， 我 
们 和 希望 知道 每 个 地 区 经 济 发 展 的 情况 ， 把 区 域 经 济 划分 归 类 ， 哪 些 地 区 发 展 较 快 ， 哪 些 
发 展 不 快 不 慢 ， 哪 些 发 展 较 慢 等 。 这 时 需要 将 公共 因子 用 变量 的 线性 组 合 来 表示 ， 也 邵 
由 地 区 经 济 的 各 项 指标 值 来 估计 它 的 因子 得 分 。 

设 公 共 因 子玉 由 变量 x 表示 的 线性 组 合 为 : 

F; = ax, +арх t" +а,х, j=1, 2, =, m 

BARA BT 18A PRÉC, НЕЯ АУЕ АОЛ 4875, Я m =2， 则 将 每 
个 样品 的 p 个 变量 代入 上 式 即 可 算出 每 个 样品 的 因子 得 分 FRI F,， 并 将 其 在 平面 上 作 因 
子 得 分 散 点 图 ， 进 而 对 样品 进行 分 类 或 对 原始 数据 进行 更 深入 的 研究 。 

但 因子 得 分 函数 中 方程 的 个 数 m 小 于 变量 的 个 数 p， 所 以 并 不 能 精确 计算 出 因子 得 
分 ， 只 能 对 因子 得 分 进行 估计 。 估 计 因 子 得 分 的 方法 较 多 ， 常 用 的 有 回归 (regression) 
估计 法 和 Bartlett 估计 法 。 

1. 回归 估计 法 

设 因 子 对 p 个 变量 的 回归 模型 为 
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F =bo +t+bnx + 6р 十 … 十 Dopx j=1, 2, +, m . 

因为 变量 和 因子 均 已 标准 化 ， 所 以 b,。=0， 上 式 可 写成 矩阵 形式 =Xb， 根 据 最 小 

二 乘 估 计 ， 有 b=(X'X)”X'F， 又 由 于 因子 载荷 阵 4 =XF'， 于 是 ; 
F=Xb=X(X'X) 'A'=XR`'A' 

这 里 R 为 相关 阵 ， 且 К= ХХ, 

2. Bartlett 估计 法 

Bartlett 估计 因子 得 分 可 由 最 小 二 乘法 或 极 大 似 然 法 导出 ， 下 面 给 出 最 小 二 乘法 求解 
Bartlett 因子 得 分 。 

在 因子 分 析 模 型 X=AF + e, HHR E А 看 作 自 变量 的 数据 答 阵 ， 将 X 看 作 
因 变 量 的 数据 向 量 ,将 F 看 作 未 知 的 回归 系数 ， 将 e 看 作 随 机 误差 ， 那么 因子 分 析 模 型 
就 是 一 个 回归 模型 。 由 于 e 的 方差 各 不 相同 ， 需 将 异 方差 的 e 化 为 同方 差 ， 将 上 述 模 型 
进行 变换 : 

人 
变 成 同方 差 回归 模型 ， 这 里 О = diag(01,03,…,0;) ， 利 用 最 小 二 乘法 ， 可 求 得 因子 得 分 
的 估计 值 ; 
F 2[(0^74)'0^ A] АТАУ yY 
=(A'Q'A)'A'Q X 

【 例 9-3】( 续 例 9-1) 根据 9-1 的 因子 计算 因子 得 分 。 

在 了 解 各 个 综合 因子 的 具体 含义 后 ， 可 采用 回归 估计 法 、Bartlett 估计 法 等 估计 方法 
计算 样本 的 因子 得 分 。 


i# 极 大 似 然 法 # 主 成 分 法 


| > Fac = factanal ( X ‚3 ,scores = " regression" ) 


| 
| > FA = factpc( X ‚3 ,scores = " regression" ) 
| 


I > Fac $scores ' > FA $scores 
| Factorl Factor2 Factor3 | Factorl Factor2 Factor 
| 5X 40K UC 1. 057 0.4986 -0.0193 | КЖК 1. 1081 0.1929 0. 4023 x 
| 大 同 水 泥 — 0.251 -1.9718  -0. 5506 | 大 同 水 泥 。 ~1.0719 1.4639 -0.374] | 
| 四川 双 马 。 -0.762 — .0.6194 -0.3564 | 四 川 双 马 -0.5858 -0.4985 — 0.2419 | 
| HFR -1.262 0.1083 -0. 8249 | 牡丹 江 -1.1744  -0.7779 0. 0899 : 
| 西 水 股份 -1.412 -0.3652 2.0084 i 西 水 股份 -0.0526 -0.4607 2.3161 | 
: 狮 头 股份 ^ — 0.299 -2,2841 0. 0654 i 狮 头 股份 -1.0501 2. 0415 0.2517 | 
| 太行 股份 0.537 -0.0173 — -0.1655 i 太行 股份 0.20801 — 0.4881 — -0.2343 | 
| 海螺 水 泥 — 1.138 — 0.8609 1.8555 ; 海螺 水 泥 2.2075 — 0.3250 1.1634 | 
| 尖峰 集团 -1.799 0.6214 -0. 2024 | 尖峰 集团 -1.1154  -1.5323 0. 3901 
“щей 0.440 0.8391 — -1.8752 i 四 川 金 项 0.0971 -0.6060 -1.4569 | 
祁连山 1.022 -0.2776 0. 1024 | 祁连山 0. 6610 1. 0329 0. 0417 : 
华新 水 泥 -0.438 0. 5332 0. 2601 | 华新 水 泥 0.4136 — -1.0833 0. 1980 | 
福建 水 泥 1. 114 0. 9199 0.1356 ; 福建 水 泥 0.8684 -0.5325 -1.8210 | 
XA) -0.185 -0.0848 — -0.5231 i ЖЮ {Л -0.5134  -0.0532 -0.4042 | 


Bm- 
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9.6 因子 分 析 的 步骤 


因子 分 析 的 核心 问题 有 两 个 : 一 是 如 何 构造 因子 变量 ， 二 是 如 何 对 因子 变量 进行 命 
名 解释 。 因 此 ， 因 子 分 析 的 基本 步骤 和 解决 思路 就 是 围绕 这 两 个 核心 问题 展开 的 。 

l. 因子 分 析 的 步骤 

因子 分 析 常 常 有 以 下 四 个 基本 步 又 : 

(1) 确认 待 分 析 的 原 变 量 是 否 适 合作 因子 分 析 。 

(2) 构造 因子 变量 。 

(3) 利用 旋转 方法 使 因子 变量 更 具有 可 解释 性 。 

(4) 计算 因子 变量 得 分 。 

2. 因子 分 析 的 计算 过 程 

(1) 将 原始 数据 标准 化 ， 以 消除 变量 间 在 数量 级 和 量 纲 上 的 不 同 。 

(2) 求 标 准 化 数据 的 相关 矩阵。 

(3) 求 相关 和 矩阵 的 特征 值 和 特征 向 量 。 

(4) 计算 方差 贡献 率 与 累积 方差 贡献 率 。 

(5) 确定 因子 : F, F,, 0, Еур 个 因子 ,其 中 前 m 个 因子 包含 的 数据 信息 总 
量 ( 即 其 累积 贡献 率 ) 不 低 于 80% 时 ， 可 取 前 m 个 因子 来 反映 原 评价 指标 。 

(6) 因子 旋转 : 大 所 得 的 m 个 因子 无 法 确定 或 其 实际 意义 不 是 很 明显 ， 这 时 需 将 因 
子 进行 旋转 以 获得 较为 明显 的 实际 含义 。 

(7) 用 原 指 标的 线性 组 合 来 求 各 因子 得 分 : 采用 回归 估计 法 、Bartlett 估计 法 计算 因 
子 得 分 。 

(8) 综合 得 分 : 以 各 因子 的 方差 贡献 率 为 权 ， 由 各 因子 的 线性 组 合 得 到 综合 评价 指 
标 函数 : 
Л.Е, +А,Е + +À,F 
A+A tAn (AU i 

此 处 w, 为 旋转 前 或 旋转 后 因子 的 方差 贡献 率 。 

(9) 得 分 排序 : 利用 综合 得 分 可 以 得 到 得 分 名 次 。 

[59-4] (x9 -1) 根据 例 9 -1 的 数据 计算 综合 因子 得 分 ， 对 水 泥 行业 进行 综 
合 评价 。 

由 回归 估计 法 计算 出 各 个 样本 的 综合 经 营业 绩 得 分 ， 以 各 因子 的 方差 贡献 率 占 三 个 
因子 总 方差 贡献 率 的 比重 作为 权重 进行 加 权 汇 总 ， 得 出 各 省 、 市 、 区 的 综合 得 分 ， 即 

F 2 (0. 333 x F, +0. 300 x F, +0. 228 x F,)/0. 861 | 
水 泥 行业 各 上 市 公司 的 因子 得 分 及 排名 如 下 : 


F 


26 6 =з тна 


和 


| > factanal.rank( Facl ,plot = T) — &H[| mvstats 包 


--——— 4 э = = = ж єє == = = ош чк == = = ш Фо өш = ARRA S єт шз т ® ooo "me 


HRK 
大 同 水 泥 
四 川 双 马 
牡丹 江 

西 水 股份 
狮 头 股 份 
太行 股份 
海螺 水 泥 
尖峰 集团 
四 川 金 顶 
祁连山 

华新 水 泥 
福建 水 泥 
{Л 


KRKI 
大 同 水 泥 
四 川 双 马 
牡丹 江 
西 水 股份 
Уа 
太行 股份 
海螺 水 泥 
尖峰 集团 
四 川 金 顶 


Factorl 
1.057 
0.251 
- 0. 762 
~ 1. 262 
-1.412 
0. 299 
0. 537 
1. 138 
-1.799 
0. 440 
1. 022 
一 0. 438 
1.114 
– 0. 185 
F 
0. 5776 
_ 0. 7358 
- 0. 1732 
~ 0. 6689 
- 0. 1185 
– 0. 6629 
0. 1579 
1. 2314 
– 0. 5330 
– 0. 0337 


Factor2 
0. 4986 
— 1. 9718 
0. 6194 
0. 1083 
- 0. 3652 
-2. 2841 
– 0. 0173 
0. 8609 
0. 6214 
0. 8391 
- 0. 2776 
0. 5332 
0. 9199 
— 0. 0848 


rank 


Factor3 
– 0. 0193 
– 0. 5506 
-0. 3564 
— 0. 8249 
2. 0984 
0. 0654 
– 0. 1655 
1. 8555 
– 0. 2024 
— 1. 8752 
0. 1024 
0. 2601 
0. 1356 
- 0. 5231 


МЕЕ LI тт т т тт т т тт т т тт т т тт т т тт т т тт т т тт т т тт т т тт т т т ч "т т т т | 


l 


- o T КЕ 
尖峰 集 团 шш mun e d ik 


: S KARKI 
* c i 
: < ° T he. 
| x 3:96 股份 太行 股份 ° | 
: t e 祁连山 

Š | 


-2.0 -1.5 -1.0 


-1.5 -1.0 -05 00 05 10 

结果 分 析 : 中 从 因子 得 分 表 可 以 看 出 ， 在 盘 利 能 力 因子 fF 上 得 分 最 高 的 四 个 公司 依 
次 是 海螺 水 泥 、 福 建 水 泥 、 茧 东 水 泥 和 祁连山 ， 这 四 家 公司 的 得 分 远 高 于 其 他 公司 ， 这 
说 明 就 盘 利 能 力 而 言 ， 这 四 家 公司 的 盘 利 水 平 远 好 于 其 他 公司 ， 而 僵 利 能 力 相 对 较 弱 的 
公司 是 尖峰 集团 、 西 水 股份 和 牡丹 江 。@) 福建 水 泥 、 海 螺 水 泥 、 四 川 金 顶 三 家 公司 在 因 
T Ff, 上 的 得 分 较 高 ， 说 明 在 水 泥 行 业 中 ， 这 三 家 公司 的 偿 债 能 力 是 较 好 的 ， 而 狮 头 股份 
和 大 同 水 泥 这 两 家 公司 在 因子 f, 上 的 得 分 较 低 ， 则 表明 这 两 家 的 偿 债 能 力 相对 较 差 ， 应 
着 力 提高 。@) 在 发 展 能 力 因 子 f, 上 ， 西 水 股份 、 海 螺 水 泥 的 得 分 远 远 高 于 其 他 公司 ， 反 
映 在 现实 情况 中 ， 这 两 只 股票 从 2008 年 到 现在 是 稳 中 有 升 的 ， 这 也 要 得 益 于 它们 良好 的 
发 展 能 力 。 同 时 也 说 明 在 水 泥 行业 上 市 公司 中 ， 就 发 展 能 力 而 言 ， 好 的 公司 还 是 少数 ， 
很 多 公司 不 注重 长 远 稳健 的 发 展 ， 而 只 注重 短期 利润 。 这 一 点 需要 引起 有 关 企业 的 注意 。 
四 川 金 顶 在 因子 上 的 得 分 最 低 ， 说 明 它 的 发 展 能 力 最 差 . 并且 它 的 前 两 个 因子 得 分 也 
不 高 ， 在 综合 排名 上 也 是 靠 后 的 ， 因 此 这 家 公司 应 从 企业 内 部 着 手 ， 进 行 整 改 ， 要 从 整 
体 上 提高 公司 的 各 项 经 营 能 力 ， 达 到 提升 公司 经 营业 绩 的 目的 。 

在 因子 得 分 图 中 ， 综 合 排 名 靠 前 的 海螺 水 泥 、 费 东 水 泥 、 福 建 水 泥 位 于 因子 得 分 图 
的 第 一 象限 ， 当 然 ， 这 几 家 公司 的 因子 RAAF Ff, 得 分 都 比较 高 。 而 排名 靠 后 的 狮 头 股 
份 、 大 同 水 泥 位 于 第 四 象限 的 左下 方 ， 牡 丹 江 位 于 第 二 象限 的 左下 方 ， 这 和 它们 的 因子 
Е. ЁҒ Ff, 得 分 低 ， 且 综合 名 次 靠 后 是 相 一 致 的 。 其 余 因 子 F,. AF ,得 分 在 中 间 的 公司 
反映 在 因子 得 分 图 上 是 出 现在 离 原 点 不 远 的 因子 FAE, RAF Р, Е. ARKH, KE 
业 间 的 差距 非常 明显 ， 而 且 三 种 经 营 能 力 都 好 的 企业 很 少 ， 因 此 ， 在 水 泥 行业 的 发 展 方面 ， 
各 上 市 公司 应 该 兼顾 三 种 经 营 能 力 的 协调 发 展 ， 锐 意 改 革 ， 提 高 公司 的 经 营业 绩 。 


КЖ Ж biplot( ) 的 用 法 


biplot( scores, ，loadings… ) 


scores 是 因子 得 分 
loadings 是 因子 载荷 


ik: biplot ( ) 画 出 了 数据 关于 因子 的 散 点 图 和 原 坐 标 在 因子 的 方向 ， 全 面 反映 了 因子 和 原始 数 
据 的 关系 。 
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PE 


' > biplot( Fac $scores, Fac $loadings) # 前 2 个 因子 图 
: -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 


0 


| ° ° x 
x V 尖峰 集团 ”四川 双 马 a i 
: - 华新 水 泥 x | 
© ЖР. c : 
d х ЖИ = 
| ppt 西 水 股份 i | 
i ec! c 
| = c ! | 
= c t 
N T ] 
n » | 
q 大 同 水 泥 | : 
: LEA] q : 
| -2.0 -1.5 -1.0 -0.5 00 0.5 1.0 | 
Factorl | 


以 公共 因子 F. 和 公共 因子 F, 为 坐标 轴 ， 绘 制 出 各 个 公司 的 因子 得 分 图 ， 见 上 上 图。 上 
面 的 分 析 结 果 可 以 在 该 因子 得 分 图 中 得 到 直观 的 反映 。 

上 面 我 们 采用 的 是 R 语言 自 带 的 因子 分 析 函 数 factanal， 该 函数 是 基于 极 大 似 然 估 计 
求解 的 ， 这 就 要 求 数 据 资 料 服 从 多 元 正 态 分 布 ， 但 实际 中 大 多 数 数据 都 很 难 满足 多 元 正 
态 要 求 ， 所 以 通常 采用 主 成 分 估计 法 或 主因 子 估 计 法 求解 ， 我 们 编制 了 基于 主 成 分 估计 
法 的 因子 分 析 函 数 factpc， 效 果 要 优 于 基于 极 大 似 然 法 的 因子 分 析 函 数 factanal。 

【 例 9-5】( 续 例 7 -2 和 例 8 -2) 对 例 7 -2 数据 应 用 因子 分 析 模 型 ， 以 其 8 个 指标 
作为 原始 变量 ,使 用 R 语言 ， 对 这 31 个 省 、 市 、 自 治 区 的 人 均 消 费 水 平 作 分 析 评 价 ， 并 
根据 因子 得 分 和 综合 得 分 对 各 省 、 市 、 自 治 区 的 人 均 消费 水 平 进行 因子 分 析 。 


Lc Ф ч шч чоч e Фо ч чо ш ч ч чш чш чш че жыш чш р оч эч чш чоч "ш а н "езу 


HE mvstats. xls : d7. 2 中 选取 А1: 132 区 域 , 然 后 拷贝 
;> X = read. table( " clipboard" „header = T) 

> library( mvstats ) 
!» FacO = factpc( X,3) 


‚> Fac0$ Vars 

:Factorl 5. 1925 0.64907 64.91 
i Factor2 1. 2606 0. 15757 80. 66 
! Factor3 0. 6471 0. 08088 88. 75 


: > Facl =factpe( X,3 ¿rot = " varimax" ) 


Ш 
Ц 

' 

I 

I 

I 

' 
Vars Vars. Prop Vars. Cum i 
l 

' 

I 

1 

I 


| » Facl$Vars 


* = = == = = ж шш = ш шшш ш шш = = ш ш ш шш = = чш ш ш шш ш ш шш ш в шш ш ош шш ш ш шш ш ш эш = ош шш шош ОЕ шш ш ш чш ж ош шш ш ж шш ш ш шш ш ш шш ш в шш ш 2 ш ш ш ш ш ш ж ш & .......-.Á.................. 
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Vars Vars. Prop Vars. Cum 

I I 

: Factorl 3. 229 40.37 40.37 | 

і Factor 2. 596 32. 45 72. 82 

! Factor3 1.275 15.94 88.75 
表 9 -5 各 因子 特征 根 及 方差 贡献 


йд ”累积 方差 
MUROS RREH 
64.907 64.907 
15.757 80. 664 
8.088 88. 752 


特征 根 


3. 193 
1.261 
0. 647 


3. 229 
2. 596 


40. 366 
32. 449 
15. 937 


40. 366 
72. 816 


由 于 公共 因子 在 原始 变量 上 的 载荷 值 不 太 好 解释 ， 故 对 其 进行 因子 旋转 ， 选 用 方差 
最 大 化 正 交 旋转 ， 得 到 载荷 矩阵 如 表 9 -6 所 示 。 


r=" 


| > Fac0 $loadings | > Кей $loadings i 
Factorl Factor2 Factor3 Factorl Factor2 Factor3 i 
: XI 0.9114 -0.07120 0.2423 | XI 0.83728 0.4015 0.17946 : 
i X2 0.3207 0. 84400 0.2879 i X2 0.08334 0.1625 0.92987 | 
‚| X3 0.8274 -0.01090 -0.3958 ! хз 0.39643 0.8267  -0.02714 : 
: X4 0.7803 0.29371  -0.4307 : X4 0.22838 0.8813 0.22782 
i О XS 0.9138 -0.15211 0.3033 i XS 0.90324 0.3425 0.13011 ; 
! X6 0.9337 0.03035 -0.1695 | X6 0.58608 0.7379 0.11553 - 
: X7 0.6569 -0.64671 0.1130 ; х7 0.79127 0.2182 -0.43453 | 
| X8 0.9096 0. 12046 0.1720 | X8 0.72564 0.487 0.32604 | 
表 9 -6 旋转 前 后 因子 的 载荷 矩阵 
旋转 后 
变量 AAF ANF AAF | ANF ARF ANF 
Кї X, | 0.911 -0.071 0.242 
ЖЖ X, | 0. 321 0.844 0. 288 
家 庭 设 备 及 服务 | 0.827 -0.011 -0.396 
医疗 保健 XX | 0.78 0.294 -0.431 
交通 和 通信 X,。 | 0.914 -0.152 0.303 
娱乐 教育 文化 X | 0.934 0.03 -0.169 


居住 X, 
杂项 商品 及 服务 X, 


0. 657 
0.91 


- 0. 647 
0. 12 


0. 113 
0. 173 
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由 旋转 后 的 因子 载荷 矩阵 可 以 看 出 ， 公 共 因 子 FEX (人 均 食品 支出 ) X, CAGS 
交通 和 通信 支出 ) X, 《人均 居住 支出 ) 、X。( 人 均 杂 项 商品 及 服务 支出 ) 上 的 载荷 值 都 
很 大 ， 可 视 为 反映 日 常 必 需 消 费 的 公共 因子 ; REX: (人 均 家 庭 设备 用 品 及 服务 支出 )、 
X。( 人均 医疗 保健 支出 )、X。( 人 均 娱 乐 教育 文化 支出 ) 上 的 载荷 值 很 大 ， 可 视 为 反映 
相对 高 档 消费 的 公共 因子 ; F 仅 在 X，( 人 均 衣 着 支出 ) 上 有 很 大 的 载荷 ， 可 直接 视 为 衣 
着 因子 。 有 了 对 各 个 公共 因子 的 合理 解释 ， 结 合 各 个 省 、 市 、 自 治 区 在 三 个 公共 因子 上 
的 得 分 和 综合 得 分 ， 就 可 以 对 各 省 、 市 、 自 治 区 的 综合 人 均 消 费 水 平 进行 评 价 了 。 

最 后 ， 由 回 妇 法 估计 出 因子 得 分 ， 以 各 因子 的 方差 贡献 率 占 四 个 因子 总 方差 贡献 率 
的 比重 作为 权重 进行 加 权 汇 总 ， 得 出 各 省 、 市 、 自 治 区 的 综合 得 分 ， 即 

F = (0. 403 66 x F, +0.324 49 x F, +0. 159 37 x F,)/0. 887 5 

各 省 、 市 、 自 治 区 的 因子 得 分 及 排名 如 下 : 


=<... ..Á....Á + 4 ө „ш <= шш 5 ше о © (ШО © фе © © ша б ФЕ © % че єє = © © чш жож өш Á... єт ш шт ...-..-......-.....-Á......Á.................áÁ......-.....⁄--]Á... 


' Factorl Factor2 Factor3 : 
;北京 0. 60209 2. 93798 1. 639329 | 
ME 0. 53368 1. 39166 - 0. 946970 : 
: 河北 -1.00553 0. 42878 - 0. 215804 : 
ET: - 0. 98315 0. 02363 0. 005883 і 
! ”内 蒙古 -0.40922 -0.75555 0. 551076 ! 
: 辽宁 -0.67890 - 0. 17396 0.484714 | 
i 吉林 -0.53301 - 0. 51962 0. 137665 ; 
! 黑龙江 -0.85858 - 0. 22739 0. 001374 | 
ZEN 2. 23481 1. 27047 0. 489859 : 
i 江苏 -0.11532 0. 26186 - 0. 074807 
! 浙江 0. 62223 2. 17914 0. 168660 
| 安徽 -0.26717 -0. 86766 - 0. 297037 : 
| ME 0.94223 -0. 67815 - 0. 337264 | 
: 江西 -0.12598 -1.25376 - 1. 226289 ; 
! 山东 -0.52826 0. 33116 0. 795547 i 
! 河南 。 -0.45310 - 0. 51662 - 0. 852182 i 
: 湖北 -0.06496 -0.67388 -0.087642 : 
BE [. 0. 27740 0. 04226 - 0. 323656 i 
i 广东 3. 52132 -0. 59559 -1.409939 
;广西 0. 49514 - 0. 31264 - 1. 620601 | 
| 海南 –0.05670 - 0. 69585 - 1. 613855 i 
: ”重庆 0. 02695 0. 26656 - 0. 014563 
; 四川 -0.16409 - 0. 02868 - 0. 460109 ; 
' 贵州 -0.64279 -0. 52856 -0. 085301 
: 云南 0. 24521 - 0. 42921 0. 308552 i 
; ”西藏 1. 41158 - 2. 38342 3. 597715 
:陕西 -0.96542 0.78188 -0.761364 
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i ”甘肃 -1.03248 0. 24684 0. 295909 
:青海 -0. 64835 0. 12991 0. 646513 І 
宁夏 -1. 06282 0. 60619 0. 411427 | 
E - 0. 31678 -0.25777 0. 793161 | 
:> Facl$Ri 
| Е Ri : 
i 北京 1. 64239 1 | 
Ф 0. 58152 5 | 
‚ 河北 -0.33931 22 | 
:山西 -0. 43746 25 
内 蒙古 -0.36342 23 | 
ED 3 –0. 28535 18 
: ”吉林 -0.40769 24 ' 
:黑龙江 -0.47339 26 
(E 1. 56890 2 | 
江苏 0. 02986 10 І 
i ”浙江 1. 11003 4 x 
: 2 - 0. 49209 27 
福建 0.12003 7 | 
i 江西 -0.73590 31 | 
;山东 0.02367 T | 
: 河南 。 -0.54798 29 | 
i 湖北 —0.29167 20 
: We 0. 08350 9 i 
; 广东 1. 13063 3 
i 广西 — -0.18010 16 | 
| 海南 -0.56999 30 x 
| ”重庆 0. 10710 8 . 
' 四 川 -0.16774 15 | 
: 贵州 — -0.50093 28 | 
' 云南 0. 01000 12 i 
; PUR 0. 41657 6 : 
: 陕西 -0.28992 19 : 
' 甘肃 -0.32621 21 | 
| 青海 。 -0.13130 14 | 
| 宁夏。 -0.18787 17 | 
|! 新 疆 —0.09591 13 | 
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在 日 常 必需 消费 因子 F, 上 得 分 最 高 的 前 五 个 省 、 市 、 自 治 区 依次 是 广东 、 上 海 、 西 
藏 、 福 建 、 浙 江 ， 且 广东 和 上 海 明 显 高 于 其 他 省 、 市 、 自 治 区 ， 这 就 是 说 就 以 食品 和 交 
通通 信和 为 主 的 日 常 必需 消费 而 言 ， 沿 海地 区 相对 要 高 些 ， 且 广东 和 上 海 的 消费 水 平 远 远 
高 于 其 他 省 、 市 、 目 治 区 ， 而 甘肃 和 宁夏 在 这 方面 的 消费 相对 较 小 。 北 京 、 浙 江 、 天 津 、 
上 海 在 因子 F, 上 的 得 分 较 高 ， 可 见 三 个 直辖 市 以 及 浙江 省 的 人 们 用 于 医保 、 娱 乐 、 教 育 
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和 家 庭 设 备 方面 的 消费 支出 不 小 。 但 广东 在 这 方面 的 排名 排 到 了 24 ， 感 觉 似 乎 不 大 合理 ， 
参考 一 些 资 料 ， 发 现 此 结果 也 有 一 定 的 道理 ， 广 东 虽 说 是 个 经 济 发 达 的 省 份 ， 但 是 由 于 
广东 的 经 济 发 展 极 不 平衡 ， 珠 三 角 和 潮汕 地 区 的 经 济 很 发 达 ， 而 粤 北 、 粤 东 、 粤 西 却 是 
非常 贫穷 的 ， 这 些 地 区 的 人 们 对 医保 、 娱 乐 、 教 育 和 家 庭 设备 及 服务 这 些 相 对 高 档 的 消 
费 支出 是 很 少 的 ， 从 而 拉 低 了 广东 省 在 这 方面 的 人 均 消 费 水 平 。 就 衣着 因子 而 言 ， 西 藏 、 
北京 、 山 东 、 新 疆 、 青 海 这 五 个 省 、 市 、 自 治 区 的 得 分 最 高 ， 得 分 较 低 的 是 广东 、 海 南 、 
广西 。 这 说 明 衣 着 因子 受气 候 的 影响 最 大 ， 北 部 、 西 北部 省 、 市 、 自 治 区 的 人 们 为 了 御 
Ж, 在 这 方面 的 支出 较 多 。 
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以 因子 1 和 因子 2 为 坐标 轴 ， 绘制 各 省 、 市 、 自 治 区 的 因子 得 分 图 ， 见 上 图 。 从 图 
中 可 以 看 出 ， 在 前 两 个 因子 上 ， 广东 、 上 海 得 分 较 高 ， 但 这 只 是 前 两 个 因子 FA F KA 
面 分 析 ， 要 全 面 分 析 还 得 作 FA F, FA F, 的 因子 得 分 图 ， 此 处 从 略 。 
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从 双重 信息 图 biplot 上 我 们 看 到 ， 各 个 变量 在 广东 、 上 海 、 北 京 、 浙 江 、 天 津 这些 
地 区 的 反应 明显 ， 说 明 这 些 地 区 在 各 个 指标 的 消费 都 较 高 ， 广 东 人 在 变量 X, (人 均 居住 
支出 ) 上 花 的 钱 明 显 多 于 其 他 地 区 ， 而 北京 人 在 变量 X. (人 均 医 疗 保健 支出 ) 上 花 的 钱 
较 多 。 


9.7 实际 中 如 何 进行 因子 分 析 


统计 软件 如 SAS, SPSS. R 等 的 广泛 应 用 使 因子 分 析 的 实际 计算 过 程 相当 简易， 但 
是 对 研究 人 员 而 言 ， 明 白 一 种 分 析 方 法 的 意义 往往 比 知晓 其 计算 过 程 更 为 重要 。 一 个 完 
整 的 因子 分 析 过 程 应 当 包含 如 下 几 个 方面 : 

1. 问题 的 定义 

这 包括 定义 一 个 因子 分 析 的 问题 并 确定 实施 因子 分 析 的 变量 。 应 用 统计 分 析 方 法 的 
关键 往往 并 不 在 于 方法 本 身 ， 而 在 于 对 合适 的 问题 选择 合适 的 方法 。 因 子 分 析 适 用 的 场 
合 往往 是 一 些 多 变量 、 大 样本 的 情形 ， 研 究 者 的 目的 则 在 于 寻求 这 些 具 有 内 在 相关 性 的 
变量 背后 的 一 种 基本 结构 。 包 含 在 因子 分 析 中 的 变量 应 当 依 据 过 去 的 经 验 、 理 论 或 者 研 
究 者 自己 的 判断 而 被 选择 。 但 非常 重要 的 一 点 是 ， 这 些 变量 必须 具备 区 间或 者 比率 测度 
等 级 。 在 样本 大 小 方面 ， 粗 略 而 言 ， 进 行 因 子 分 析 的 样本 容量 至 少 应 是 因子 分 析 所 涉及 
变量 数目 的 4 到 5 (Ë | 

2. 选择 因子 分 析 的 方法 

主 成 分 分 析 法 和 因子 分 析 法 是 两 种 主要 的 寻找 公 因 子 的 方法 。 前 者 主要 考虑 变量 的 
全 部 方差 ， 而 后 者 则 着 重 考 虑 共同 方差 。 因 此 ， 主 成 分 分 析 法 使 用 直接 由 数据 计算 出 的 
协 方差 阵 ， 而 因子 分 析 法 则 先 将 计算 出 的 协 方差 阵 的 对 角 线 元 素 替换 为 一 个 估计 的 共同 
度 ， 再 进行 后 续 分 析 。 如 果 研 究 者 关注 的 问题 是 寻求 可 以 解释 数据 中 的 最 大 方差 的 尽 可 
能 少 的 因子 时 ， 主 成 分 分 析 法 是 一 种 值得 推荐 的 方法 ， 同 时 这 也 是 应 用 比较 广泛 的 一 类 
Ark. 

3. 确定 因子 数目 

主 成 分 分 析 法 所 获取 的 因子 解 的 数目 和 原来 变量 的 个 数 是 一 样 多 的 ， 而 因子 分 析 的 
主要 目的 则 是 用 少数 几 个 公 因 子 来 阐释 数据 的 基本 结构 。 这 既 要 求 因 子 的 数目 远 比 原来 
的 变量 个 数 少 ， 同 时 又 要 求 保留 的 因子 能 够 尽 可 能 多 地 保留 原来 变量 的 信息 。 因 此 因子 
数目 的 选取 也 就 比较 讲究 。 除 了 经 验 判 断 外 ， 特 征 值 法 是 较 常 使 用 的 判断 方法 。 因 子 对 
应 的 特征 值 就 是 因子 所 能 解释 的 方差 大 小 ， 而 由 于 标准 化 变量 的 方差 为 1!， 因 此 特征 值 
法 要 求 保 留 因 子 特征 值 大 于 1 的 那些 因子 。 这 意味 着 要 求 所 保留 的 因子 至 少 能 够 解释 一 
个 变量 的 方差 。 需 要 注意 的 是 ， 如 果 变 量 的 数目 少 于 20， 该 方法 通常 会 给 出 一 个 比较 保 
守 的 因子 数目 。 此 外 ， 基 于 所 保留 的 因子 能 够 解释 的 方差 比例 的 方法 也 常常 使 用 。 一 般 
而 言 ， 所 保留 的 公 因 子 至 少 应 该 能 够 解释 所 有 变量 80% 的 方差 。 

4. 因子 旋转 

因子 载荷 给 出 了 观测 变量 和 提取 的 因子 之 间 的 相关 程度 ， 这 意味 着 在 某 一 因子 上 负 
载 大 的 变量 对 该 因子 的 影响 较 大 ， 因 子 的 实际 意义 较 大 地 取决 于 这 些 变量 。 这 可 以 帮助 
我 们 解释 因子 的 实际 意义 。 但 是 ， 基 于 公 因 子 本 身 的 意义 ， 实 际 中 往往 会 出 现 所 有 变量 
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在 一 个 因子 上 的 负载 都 比较 大 的 情形 ， 这 就 为 因子 的 解释 带 来 了 困难 .因子 旋转 为 因子 
解释 提供 了 便利 。 因 子 旋转 的 目的 是 使 某 些 变量 在 某 个 因子 上 的 负载 较 高 ， 而 在 其 他 因 
子 上 的 负载 则 显著 较 低 ， 这 事实 上 是 依据 因子 对 变量 进行 更 好 的 “ 聚 类 ”。 同 时 ,一 个 合 
理 的 要 求 是 ， 这 种 旋转 应 并 不 影响 共同 度 和 全 部 所 能 解释 的 方差 比例 。 因 子 模型 本 身 的 
协 方差 结构 在 正 交 阵 下 的 “不 可 识别 性 ”决定 了 因子 旋转 的 可 行 性 。 正 交 旋 转 (orthogo- 
nal rotation) 和 和 斜 交 旋转 (oblique rotation) 是 因子 旋转 的 两 类 方法 。 正 交 旋 转 由 于 保持 
了 坐标 轴 的 正 交 性 (成 直角 ) ， 即 因子 之 间 的 不 相关 性 ， 因 此 使 用 得 最 多 ， 它 也 是 正 交 因 
子 模型 的 旋转 方法 。 正 交 旋 转 的 方法 很 多 ， 其 中 以 最 大 方差 正 交 旋转 法 (Varima) 最 为 
常用 。 斜 交 旋 转 可 以 更 好 地 简化 因子 模式 和 矩阵， 提高 因子 的 可 解释 性 ， 但 是 因为 因子 间 
的 相关 性 而 不 受 欢迎 。 然 而 如 果 总 体 中 各 因子 间 存 在 明显 的 相关 关系 则 应 该 考虑 斜 交 
旋转 。 

5. 因子 解释 

因子 分 析 的 重要 一 步 应 该 是 对 所 提取 的 公 因 子 给 出 合理 的 解释 。 因 子 解释 可 以 通过 
考虑 在 因子 上 具有 较 高 载荷 的 变量 的 意义 进行 。 经 过 因子 旋转 后 的 因子 载荷 阵 可 以 大 大 
地 提高 因子 的 可 解释 性 。 需 要 注意 的 是 ， 即 使 是 经 过 旋转 ， 仍 有 可 能 存在 一 个 因子 的 所 
有 因子 载 倚 均 较 高 的 情形 ， 这 种 因子 通常 被 称 为 一 般 或 者 基础 性 因子 ， 一 个 合理 的 解释 
是 它 是 由 所 研究 的 问题 的 共性 所 决定 的 ， 而 并 不 单一 地 取决 于 问题 的 某 一 个 方面 。 此 外 ， 
对 于 某 些 载荷 较 小 、 难 以 解释 或 者 实际 意义 不 合理 的 因子 ， 如 果 其 解释 的 方差 较 小 ， 则 
通常 予以 舍弃 。 

6. 因子 得 分 

如 果 后 续 分 析 需 要 ， 如 进行 回归 分 析 等 ， 通 常 需要 进一步 计算 各 公 因 子 的 因子 得 分 ， 
即 给 出 各 因子 在 每 一 个 样本 上 的 值 。 事 实 上 ， 既 然 各 观测 变量 可 以 表示 为 各 公 因 子 的 线 
性 组 合 ， 那 么 反之 ， 各 公 因 子 也 可 以 表示 为 各 观测 变量 的 线性 组 合 。 

因子 得 分 正 是 通过 这 样 的 方法 利用 各 观测 变量 的 值 估计 得 到 的 。 主 成 分 分 析 法 可 以 
给 出 各 因子 得 分 的 精确 值 ， 并 且 这 些 值 之 间 是 不 相关 的 。 因 子 得 分 值 可 以 用 来 代替 原来 
的 变量 用 于 后 续 的 分 析 。 由 于 消除 了 相关 性 ， 为 后 续 的 统计 分 析 方 法 的 使 用 提供 了 较 大 
便利 。 

7. 因子 分 析 法 的 意义 

因子 分 析 法 的 意义 在 于 简化 数据 结构 ， 通 过 科学 的 定量 分 析 构 造 一 个 统计 上 优良 的 
指标 体系 ， 然 后 对 被 评价 对 象 进 行 综合 评价 。 运 用 该 方法 ， 不 仅 可 以 将 所 研究 各 上 上 市 公 
司 的 综合 因子 的 得 分 进行 排序 ， 以 判别 公司 的 经 营 状 况 优 劣 ,还 可 以 根据 计算 的 结果 ， 
找 出 公司 的 相对 竞争 优势 所 在 ， 了 取长补短， 发 挥 企业 的 特长 ， 提 高 公司 综合 竞争 力 。 利 
用 因子 分 析 法 评价 企业 综合 经 营业 绩 有 两 个 大 的 优点 : 一 是 客观 地 反映 各 因素 对 经 营业 
绩 的 影响 ， 即 各 指标 权重 赋值 的 科学 性 ; 二 是 消除 各 指标 相关 性 对 综合 评价 的 影响 。 通 
过 以 上 的 分 析 和 评价 ， 可 以 看 出 ， 使 用 因子 分 析 法 很 好 地 解决 了 多 指标 下 的 经 营业 绩 问 
题 ， 它 通过 分 析 事 件 的 内 在 关系 ， 抓 住 主要 矛盾 ， 找 出 主要 因素 ， 使 多 变量 的 复杂 问题 
变 得 易于 研究 和 和 分析。 在 上 述 案 例 中 ， 虽 然 只 选择 了 八 个 指标 ， 可 能 存在 不 全 面 的 问题 ， 
但 不 影响 方法 和 过 程 的 一 般 性 研究 。 在 指标 全 面 的 条 件 下 ， 按 着 同样 的 思路 和 方法 ， 就 
可 以 得 到 更 好 的 结果 。 
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案例 分 析 : 因子 分 析 在 公司 经 营业 绩 评价 中 的 应 用 及 R 操作 


随 着 中 国资 本 市 场 的 发 展 ， 上 市 公司 的 经 营业 绩 日 益 成 为 股东 、 债 权 人 、 研 究 人 员 
所 关心 的 主要 问题 ， 本 案例 运用 因子 分 析 方 法 ， 从 上 市 公司 对 股东 的 回报 能 力 、 资 产 管 
理 能 力 、 偿 债 能 力 、 盆 利 能 力 四 个 方面 对 上 海 股票 市 场 医药 行业 的 上 市 公司 经 营业 绩 进 
行 综合 评价 分 析 ， 并 得 出 评价 的 结 采 。 

(1) 案例 的 背景 分 析 : 对 上 市 公司 的 经 营业 绩 进 行 评 价 一 直 是 经 营 者 、 投 资 者 和 研 
究 者 的 关注 重心 。 但 是 ， 能 够 反映 上 市 公司 经 营业 绩 的 指标 很 多 ， 而 各 个 指标 之 间 往 往 
又 存在 一 定 的 相关 性 ， 容 易 造 成 信息 的 重复 。 与 此 同时 ， 公 司 之 间 的 情况 各 异 ， 各 个 指 
标 彼 高 此 低 ， 因 此 ， 必 须 对 上 市 公司 进行 综合 的 评价 和 分 析 ， 从 众多 的 指标 中 提取 合适 和 
科学 的 公共 因子 ， 以 方便 对 业绩 进行 解释 。 因 子 分 析 方 法 无 疑 是 解决 这 一 问题 的 有 效 途径 。 

(2) 案例 的 分 析 对 象 : 本 案例 所 探讨 的 就 是 面 对 众 多 的 指标 应 该 如 何 利 用 因子 分 析 
方法 进行 综合 的 分 析 和 评价 ， 其 所 依托 的 客体 是 2003 年 上 海 股市 医药 、 生 物 行业 28 家 
上 市 公司 年 报 中 的 有 关 指 标 。 所 引用 资料 取 自 巨 潮 资讯 网 (www. cninfo. com. сп). ЖЖ 
例 一 共 选 取 了 11 个 指标 : 乱 一 一 每 股 收益 、 人 如 一 一 每 股 净 资产 、 如 一 一 净 资 产 收益 率 、 


X4 一 一 扣除 后 每 股 收 益 、X5 一 一 存货 周转 率 、X6 一 一 固定 资产 周转 率 、 匀 一 总 资产 周转 
率 、X8 一 一 主 营业 务 利润 率 、 和 9 一 一 销售 毛利 率 、X10 一 一 流动 比率 、X11 一 一 速 动 比率 。 
= 
у; Dr: v. -. 9х 
ао ^ * 
I ] K L v хт 
х8 (9 10 11 
10.16 6.91 9.1 1.69 
54. 63 3. 19 ё 0 
66.12 0.66 & Q. 46 
46.14 1.15 9 0.8 
L0; 4.6 is 0. š; 
55 45 56 0. 54 
33 3. 38 1.41 0. 1 
38, 74 4 96 2. 81 1. 09 
41.36 3. 58 0.54 
47.3 2.02 4 0.4 
6. 49 3. 52 1 0. 79 | 
44. 83 $71 3⁄4 0.6 | 
1.3 4. 64 54 0. 4 =] 
38.15 0. 66 ) 65 0. 3$ | 
19 4 45 T 0 i 
20. 25 5, 03 16 0.74 i 
5,72 2 1.4 0.434 | 
41.76 22 1.84 0.61 | 
33, 58 2. 54 127 0.5 | 
i9. 3 0. 96 1.03 0. 39 | 
4.4 2 92 1.74 0.43 
16. 86 71 0. 58 0. 19 
17. 96 9 21 0.7 0. 38 | 
5.5 3.18 0. 58 0. 38 | | 
48.8 1.36 0.43 0.15 | 
37.71 2.84 1.1 0. 55 4 
0.81 6 1 36. 02 1.95 L3 0.53 
26.0 0.1 0. 14 о 04 
| 30 I ‚ 
CEEI cast? / case / cased / сэзе$ / сазеб / case? Г сазе8 , сале? casel0/casell / case12 / | wmm I 


二 、R 语言 操作 

1. 调 入 数据 

选中 case9 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case9 = read. table( " clipboard" , 
header =T) 。 
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2. 计算 过 程 及 结果 分 析 
从 样本 相关 阵 R 可 计算 出 R 的 特征 值 、 相 应 的 方差 贡献 率 及 累积 方差 贡献 率 〈 见 表 
9 -7)， 表 9 -8 是 旋转 前 、 后 的 因子 载荷 矩阵 。 


SAKAJE 


FTA RIA DMS >. n a S CLER US PX DU ATELIERS о A SDI КУ аа S e ue. a 
^$ ДЫЛ Л М ы Я y^ acr i д Mor 2 
се СЕ Tq Я r 4 7 - И “© 15 x 


 GCase9=read.table("clipboard",header=T) 
(FAD=factanal (case9, 4, rot="none™) ) ext 
peirs(FAO0$loadiíngs) 

J(FA1-factanal(case$S,4,rot»"varimax")) Wvarimaxük | 
;pairs(FAl$loadings| 


> (FA0*Tactanal(case5, 4, rot» "none")) | xol. 


Call: 
factanal(x = сазеў, factors = 4, rotation = "none") 


一 -一 


Uniquenesses: 
х1 х2 x3 x4 x5 xé х7 xë X9 x10 xil 
0.034 0.471 0.232 0.014 0.005 0,021 0.005 0.005 0.679 0.139 0.161 


Loadings: 


DE wo X Ge P CETTE аэ; - т 2294 лала AM ЛА 720209 
» — Y Factor3 Factor4 - R Graphics: Device (cD - mT S Yl YE 


° 
ә е 
s 
, & =Ü. ° 
X9 0.221 -0.331 0.391 » € 
x10 0.381 0.820 0.203 2 i | 
X11 0.513 -0.139 0.746 2 ET actor2 m 
БА 


wara 
-有 
T m 
обоо 
LE NE 
К-ТЕ; 
LEN NM 
booo 
- 24 
НЕПЗ 
e ç É 
| E 
| 
00 06 


Factori Factor? Factor3 Factor — rr ——— г. 
$$ loadings 3.371 3.225 1.398 1.244 | š | | | F А © 
Proportion Var 0.306 0.293 0.127 0.112 ac | 

| Cumulative Var 0.206 0.600 0.727 0.640 53 21.091. оэ E: 8 
Test of the hypothesis that 4 factors are sufficient. = 4 n We Factors 
The chi square statistic is 76.41 on 17 degrees of freedom. 06 | 
The p-value is 1.65e-05 si^ ° i 
> pairs(fhGslosdings) 
> | 00 06 00 04 0% 


39-7 旋转 前 、 后 因子 的 方差 贡献 
旋转 前 旋转 后 


方差 Жр 方差 ЖЫЛ 
SIE 贡献 率 % mapo Л mmko ШЖ 
3. 258 29. 6 29. 6 
2. 061 18. 7 48.4 
2. 008 18.3 66. 6 


1-91 17.4 84.0 


49-8 旋转 前 、 后 的 因子 载荷 矩阵 


и 00100010 
F, | F, F, F, 
每 股 收益 XI 0. 305 0.123 0.212 
每 股 净 资 产 如 0. 154 0. 117 
净 资 产 收 益 率 X3 0. 320 0.166 0. 188 
扣除 后 每 股 收益 X4 0. 329 0.132 0.101 
存货 周转 率 XS 0. 699 0.711 0.969 0. 197 
固定 资产 周转 率 X6 0. 706 0. 689 0.960 0.229 
总 资产 周转 率 X7 0. 942 -0. 323 0.224 0.952  -0.144 
主 营业 务 利润 率 X8 0.944 -0.318 0.229 0.950  -0.145 
销售 毛利 率 AX -0.331 0.397 -0.235 -0.198 0.472 
流动 比率 X 10 0.820 0.203 0. 152 0.896 
速 动 比率 X11 -0.139 0.746 0.857. 
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从 表 9 -7 可 以 看 出 ， 前 4 个 因子 的 方差 贡献 率 已 经 占 到 累积 方差 贡献 率 的 84. 0%, 
所 以 只 需要 取 前 4 个 因子 就 可 以 较 好 地 概括 原始 指标 。 

由 旋转 后 的 因子 载荷 矩阵 可 以 看 出 ， 因 子 Fi 在 每 股 收益 X11、 每 股 净 资产 X2, PR 
产 收益 率 13 、 扣 除 后 每 股 收益 ХА 上 的 载荷 量 较 大 ， 分 别 反 映 上 市 公司 给 予 其 股东 的 回 
报 ， 在 这 个 因子 上 得 分 越 高 ， 则 公司 能 够 给 予 股东 的 回报 一 般 而 言 也 越 高 。 因 子 F, H T 
在 存货 周转 率 5、 固 定 资产 周转 率 上 有 较 大 的 载荷 量 ， 所 以 是 反映 公司 的 资产 管理 
能 力 的 综合 指标 。 第 三 个 因子 F, 在 总 资产 周转 率 X7、 主 营业 务 利润 率 X8 上 的 载荷 量 较 
大 ， 主 要 体现 了 公司 的 短期 偿 债 能 力 ， 是 债权 人 非常 关心 的 项 目 。 第 四 个 因子 在 销售 
毛利 率 四、 流动 比率 X10、 速 动 比率 X11 上 的 载荷 较 大 ， 是 反映 公司 的 熏 利 能 力 的 公共 
因子 。 从 RR 给 出 的 成 分 图 可 以 更 清晰 地 看 到 各 个 原始 指标 之 间 的 关系 。 

从 因子 排名 表 可 以 看 到 ， 在 途 债 能 力 方面 ， 片 仔 将 可 谓 一 枝 独 秀 。 这 与 该 公司 独家 
生产 和 拥有 400 余年 历史 的 名 贵 中 药片 仔 瘦 不 无 关系 。 由 于 其 独特 的 地 位 ， 所 以 漳州 片 
仔 痉 集 团 公司 的 现金 流 相当 充足 。 男 一 方面 ， 片 仔 瘦 拥 有 的 片 仔 着 配方 属于 国家 绝密 ， 
因此 在 上 市 时 没有 进行 资产 评估 ， 片 仔 着 的 无 形 资产 包括 品牌 、 商 标 、 技 术 、 专 利 、 药 
品 批文 等 ， 都 没有 作 评 佑 就 无 偿 进 入 股份 公司 ， 致 使 其 在 无 形 资产 方面 没有 相应 显示 出 
应 有 的 数据 。 这 两 方面 的 原因 使 得 片 仔 着 在 着 重 考察 流动 资产 质量 的 短期 偿 债 能 力 指标 
方面 有 着 极为 优秀 的 表现 。 康 美 药 业 在 股东 回报 方面 领先 ， 但 是 在 其 他 三 个 方面 却 都 在 
平均 水 平 以 下 ， 这 与 其 特殊 的 股本 结构 和 小 盘 股 有 着 重要 的 联系 。 翻 看 康美 药 业 的 年 度 
报告 就 可 以 知道 无 论 对 整个 资本 市 场 还 是 对 医药 行业 的 上 市 公司 而 言 ， 康 美 药 业 都 属于 
小 盘 股 ; 其 次 ， 康 美 药 业 属于 典型 的 “家 族 企业 ”， 公 司 的 第 一 、 二 大 股东 关系 密切 ， 两 
者 股权 合计 拥有 超过 78% 的 公司 股份 。 这 两 个 原因 使 得 尽管 康美 药 业 在 其 他 方面 表现 平 
平 ， 但 是 因为 其 没有 一 般 上 市 公司 的 所 有 权 和 经 营 权 分 离 所 产生 的 矛盾 ， 所 以 康美 药 业 
的 股东 可 以 享有 较 高 的 投资 回报 。 
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* h ñ түүт 
-i lc. пева, ME 
*cli 


d*,header*T) 
se?,4 pem *none")) Шиве 


pilote 
F Facto 
R 0.04613 4 
Meis 1.71681 -0.27519 0.98209 0.37075 
Lars i 0.48660 4.43795 93 5 
mc 1.81318 -0.14943 0.25537 0.07634 
主力 0.70660 -0.445 2.1464 251 
“ИЙ: 1.80684 -0.47 -1.071 22126 
HUM dk 2.13680 -0.56400 -1.04799 -0.62156 
piik 0.12678 -0.50966 1.54857 0.92290 
ЭЗЕ -0.37320 1.75743 -0.14239 0.47063 
mi 45733 -0.06390 0.78917 262 
WN 0.27090 -0.33147 -0.73364 0.30501 
EEk -0.20955 -0.30059 0.55067 0.28325 
ЖЫ -0.34744 -0.93613 2.39701 -0 
ж ж 2 76011 -0 20935 65 
ж) -0.26082 2. 52349 -0.52459 0.54525 
业 53383 .072608 0.644 
KAR 0.50086 ` 23816 -0.57133 -0.57922 
e e gs dv - 40332 63096 ө. са ns + rr 
Aw 01687 20.31220 -0.49 
天 您 生物 Ж 19590 + 20420 0 n Р; oe 
钱 江 生化 -0.2942 -0 . 
ARFS -0.68529 0.275 0 ti B ai- 
ө (@ -0.51 0.1162 83 1 


= 0.67747 3 
Rt» 0.66827 4 
“ 


与 片 仔 疗 相 对 比 ， 排 名 第 四 的 天 土 力 则 在 盈利 能 力 方面 表现 突出 ， 尽 管 在 2003 年 上 
半年 受到 SARS (传染 性 非典 型 肺炎 ) 的 冲击 ， 其 至 利水 平 却 仍 然 位 居 同 行业 上 市 公司 的 
前 列 。 天 士 力 制药 股份 有 限 公司 是 目前 国内 最 大 的 滴 丸 剂型 生产 企业 ， 与 医药 流通 领域 
的 利润 水 平 不 断 降低 相反 ， 医 药 生 产 企业 的 利润 水 平 得 到 了 相当 的 提高 。 作 为 一 家 中 药 
上 市 企业 ， 随 着 中 国 加 入 世界 贸易 组 织 ， 知 识 产 权 得 到 更 大 的 保障 ， 自 然 绿色 治疗 概念 
的 逐步 兴起 ， 天 士 力 必然 会 保持 更 加 良好 的 发 展 势头 。 

同仁 堂 的 综合 得 分 排名 第 三 ， 在 股东 回报 和 盈利 能 力 上 出 现 负数 ， 低 于 平均 水 平 ， 
究 其 原因 ， 主 要 是 因为 同仁 堂 的 主 营 业务 是 在 医药 商业 方面 ， 而 随 着 医药 行业 原 有 体系 
被 打破 ， 在 医药 流通 和 商业 方面 的 竞争 加 剧 (例如 越 来 越 多 的 平价 药房 的 出 现 ， 连 锁 药 
店 逐 渐 步 人 微利 时 代 ) ， 其 盈利 能 力 受 到 一 定 冲击 也 是 在 意料 之 中 的 。 尽 管 如 此 ， 同 仁 堂 
作为 一 家 在 医药 行业 有 着 很 强 竞争 力 的 上 市 公司 ， 其 资产 管理 和 综合 营运 水 平 仍然 保持 
在 同行 业 的 前 列 。 | 

三 、 案 例 小 结 

(1) 根据 上 述 结果 ， 可 以 认为 对 上 市 公司 业绩 进行 综合 评价 时 主要 考察 该 公司 的 回 
报 能 力 、 盈 利 能 力 ， 偿 债 能 力 、 资 产 管理 能 力 等 方面 。 而 且 对 股东 的 回报 能 力主 要 考察 
每 股 收益 、 每 股 净 资 产 、 净 资产 收益 率 、 扣 除 后 每 股 收益 ; 盈利 能 力主 要 考察 主 营业 务 
利润 率 、 销 售 毛利 率 两 项 指标 ; 偿 债 能 力主 要 考察 存货 周转 率 和 流动 比率 两 项 指标 ; 资 
产 管理 能 力 则 主要 考察 总 资产 周转 率 、 固 定 资产 周转 率 两 项 指标 。 

(2) 从 评价 上 市 公司 业绩 的 四 项 主因 子 来 看 ， 对 股东 的 回报 放 在 了 首位 ， 其 次 是 资 
产 管理 能 力 、 偿 俩 能力、 盈利 能 力 。 这 一 结论 基本 符合 现代 企业 经 营 理论 。 公 司 的 首要 
任务 是 为 股东 创造 价值 ， 增 加 财富 ， 回 报 股东 。 随 着 中 国资 本 市 场 的 成 熟 ， 市 场 对 上 市 
公司 的 资源 配置 逐渐 由 上 市 圈 钱 挽救 国企 和 概念 炒作 转向 对 公司 资产 管理 能 力 的 关注 。 
在 风险 益 高 的 今天 ， 上 市 公司 资产 的 安全 也 被 赋予 了 仅 次 于 股东 回报 能 力 和 资产 管理 能 
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力 的 地 位 ， 而 盘 利 能 力 则 为 公司 的 各 方面 提供 了 源 动 力 。 


E Rcode.xis Wcaseo b R? E 
Case9=read. table("clipboard",beader=T) 
(FAO=factanal (case9, 4, rot="none™) ) Hut i 


4208 -0.57772 -1.195 


(вуз 
actanal.rank(FAl,ploteT) 
| biplot(FAl$scores,FAl1$l1oadings) 


—— [A 


———————————— 


(3) 该 评价 方法 是 根据 上 市 公司 11 项 指标 数据 的 内 在 关系 确定 各 项 指标 在 总 体 评价 
体系 中 的 权重 ， 即 由 原始 数据 本 身 确定 综合 指标 的 权重 ， 并 且 随 着 上 市 公司 样本 或 数据 
时 期 不 同 ， 最 后 得 到 的 权重 和 结果 也 有 所 不 同 ， 但 这 并 不 影响 在 同一 样本 或 时 期 范畴 公 
司 综合 经 营 效 果 评 价 的 可 比 性 。 因 子 分 析 方 法 有 严 并 的 数学 科学 性 ， 可 以 较 好 地 体现 公 
司 经 营业 绩 评价 的 客观 性 和 公正 性 。 


案例 分 析 题 
从 给 定 的 题目 出 发 ， 按 内 容 提要 、 指 标 选 取 、 数 据 搜 集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 
l. 因子 分 析 法 在 股价 预报 上 的 应 用 。 
.对 我 国 各 地 区 经 济 效益 状况 进行 综合 研究 。 
. 对 我 国人 文 社会 科研 与 发 展 状 况 进行 分 析 。 
. 用 因子 分 析 研 究 股票 内 在 的 联系 。 
对 我 国 31 个 省 、 市 、 自 治 区 农业 发 展 状 况 进行 综合 分 析 。 
对 电子 行业 上 市 公司 经 营业 绩 进 行 因子 分 析 研 究 。 
.应 用 因子 分 析 评 价 2010 年 我 国 31 个 省 、 市 、 自 治 区 的 经 济 效益 。 
.对 2010 年 度 全 国 各 地 区 电信 业 发 展 情况 进行 比较 分 析 。 
.对 我 国 31 个 省 、 市 、 自 治 区 的 宏观 经 济 发 展 情 况 作 出 评价 。 
10， 因 子 分 析 法 在 我 国 寿险 公司 偿付 能 力 监测 中 的 应 用 。 
11. 因子 分 析 法 在 上 市 公司 经 营业 绩 评价 中 的 应 用 。 
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思考 练习 题 
一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 
l. 比较 因子 分 析 和 主 成 分 分 析 模 型 的 关系 ,说 明 它 们 的 相似 之 处 和 不 同 之 处 。 
2. 使 用 因子 分 析 时 有 哪些 需要 注意 的 问题 ? 
3. 能 否 将 因子 旋转 的 技术 用 于 主 成 分 分 析 ， 使 主 成 分 有 更 鲜明 的 实际 背景 ? 
4. 证 明 对 标准 化 变量 Z| ，Z, 和 Z, , 
1 0.63 0.45 
0.63 1 0. 35 
0.45 0.35 1 
可 以 由 m = 1 的 正 交 因子 模型 

£, 0.9F, +в, 

k 20. 7F, +a, 

Z, 20. ІР, +в, 

生成 ， 这 里 var( F,) 21,cov(&,F) =0， 


0. 19 0 0 
E 0.51 0 | 


0 0 0. 75 

即将 R 写成 R=A4' + X, Жзх ЗЕН 

(1) 计算 共同 度 如 ,i=1，2，3， 并 解释 之 。 

(2) 计算 corr(2Z,F) ,i=1,，2，3， 哪 个 变量 在 公共 因子 中 有 最 大 的 权 ? 为 什么 ? 

5. 验证 下 列 和 矩阵 性 质 ; 

(1) (I+A'Q А) А’ 'A-I- (1+ A'Q7 A) '! 

(2) (AA' +0) 7 = Q-Q A(1«A'Q^A) A'O 

(3) A'(A4' +Q) =(I+A'Q A) A'O ' 

二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 

1. 编写 R 程序 计算 思考 题 的 第 4 题 。 

2. 试 编写 R 程序 验证 思考 题 的 第 5 Bi. 

3. 试 编制 计算 bartlett 因子 得 分 的 R 语言 函数 。 

4. 因子 分 析 法 在 股价 预报 上 的 探索 : 在 本 例 中 为 了 验证 因子 分 析 方 法 的 有 效 性 ， 特 
意 不 区 分 行业 ， 以 上 海 证 券 交 易 所 和 深圳 证 券 交 易 所 进行 分 层 ， 然 后 把 层 内 全 部 股票 选 
人 抽样 框 ， 以 进行 随机 抽取 。 从 http://www. jrj. com. сп 得 到 了 23 家 企业 在 2004 年 3 月 
31 日 的 数据 ， 所 考虑 的 指标 如 下 : X, 流动 比率 ( «2 偏 低 )、X, 速 动 比率 (<1 偏 低 )、 
X, 现金 流动 负债 比 〈(% ) X, 每 股 收益 (Jú). X, 每 股 未 分 配 利润 〈 元 ) 、 每 股 净 资 
产 〈 元 ) X, 每 股 资本 公积金 (元 ) X, 每 股 人 一 余 公 积 金 (л). X, 每 股 净 资 产 增长 率 
(%). Xy ERIS (90). Х 经 营 毛 利率 (9%). XS SEP dE (96) , X, 9t 
利率 (%)、Xis 主 营业 务 收入 增长 率 (%)、X,s 净 利润 增长 率 (%)、XX, 总 资产 增长 率 
(和 % )、X; 和 营业 利润 增长 率 (%)、Xis 主 营业 务 成 本 比例 (%)、X, 和 营业 费用 比例 (96), 
Xn 管理 费用 比例 (96) 、X,, 财 务 费 用 比率 (96). 


R= 
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代码 名 称 X, X, X; X, X, X, X, X, X Xio 
000029 深 深 房 A 1.33 0.33 -1.44 -0.02 -092 1.11 0.95 0. 12 11.10 -12.85 
000509 MAI 0.76 0.73  -4.96 0.02 -1.42 1.57 1. 86 0.12 -10.38 4.91 
000537 FZE 1.21 1.14 -4.72 -002 -072 1.03 0. 53 0.23 -46.59 -28.03 
000592 STHi$ 079 060 -0.19 -0.02 -1.9% 0.03 0. 86 0.11 -96.94 -993.95 
000880 ”山东 巨 力 0.75 0.58 7.55 -0.35 -0.36 1.78 1.02 0.11 -28.02 0. 24 
0009277 一汽 夏利 1.11 1.01 7.27 0.01 -0.26 1.67 0. 82 0. 10 9. 34 0. 87 
000993 WEH 1.19 1.01 -1273 -0.03 -0.33 4.50 3. 75 0. 09 -7.01 -23.16 
200041 ЖЬ 1.04 091 -17.41 -0.30 -0.30 1.78 0. 49 0.52 -14.37 1. 41 
600090 STM 0.22 0.16 0.15 -0.03 -3.28 -2.45 0. 10 0.49 -253.80 -27.05 
600181 БК 1.57 1.18 -3.77 -0.08 -0.55 1.84 1.25 0.14 -30.63 -77.83 
600522 ”中 天 科技 1.98 1.28 -28.33 0.01 0.16 27 1. 40 0. 15 -1.39 2.27 
600643 ” 爱 建 股 份 1.36 0.82 7.47 0.05 -0.59 3.37 2. 06 0.90  -13.76 6.38 
600698 ST 轻骑 0.92 0.82 -4.03 000 -1.91 0.37 1.27 006 122.27 0. 83 
000869 аА 4.03 3.49 49.27 0.24 1.31 5.27 2.48 0.48 -7.25 17.86 
000922 ГНЕ 1.95 1.43 -72.04 0.01 00 190 0. 62 0.14 -38.30 6. 50 
000523 PHRF 1.91 1.38 -16.20 00 -047 1.71 0. 72 0. 45 0. 60 0.29 
000705 ”浙江 震 元 1.47 0.93 -3.68 0. 02 0.45 3.56 1.84 0. 26 3.44 1.04 
000518 Ж 5.47 425 61.70 0.04 0.02 1.10 0.0 000 -47.48 32.85 
000009 ЖФА 1.49 0.35 0. 05 00 -0.59 1.19 0. 70 0. 35 -0. 10 1. 45 
000001 ”深发展 A 0.78 0.78 1. 58 0. 11 0.20 2.15 0. 81 0. 08 6.57 11.20 
000578 ”数码 网 络 85.00 0. 63 2. 52 0. 04 0.10 1.60 0. 26 0. 23 6. 63 0. 12 
000758 ”中 色 建 设 274 2.39 -27.90 0.02 0.21 2.61 1.31 0.14 9.92 11.38 
000597 东北 药 1.24 1.00 3. 00 0.01 -0.02 292 1.92 0. 02 1.25 0. 67 

(4k E) 

代码 名 称 Xu Xn Xn Xy Xis Xis Xi Xis X, Xx Xa 
000029 RÆ A 8.37 -0.67 -0.67 -16.66 23.64-11.39 -40.31 8976 3.43 15.80 6.61 
000509 FA% 31.44 0.60 0.37 217.62 218.61 31.30 282.07 68.22 2.86 11.85 9. 59 
000537 ”南开 戈 德 0.47 -0.62 -0.64 133.00 56.28-32.22 -46.59 98.70 1.87 10.94 13.27 
000592 ST Hi 4057 -0.70 -0.70 -9689 -184179 -33.45 -96.94 57.86 3.80 237.64 797.55 
000880 山东 巨 力 7.59 0.11 0.07 -13.35 28.88 27.25 24.36 92.40 3.23 3.46 1. 10 
000927 — ЖЖ 7.10 0.18 0.18 10.32 -76.29 -5.76 -48.34 88.59 3.94 4.05 2.03 
000993 ЖЕУ 9.73 -0.32 -0.36 -33.57 -557.39 2.44 -88.61 89.73 0.57 44.33 19.72 
200041 REZ b 34.91 0.06 0.04 -21.27 4.25 6.11 -25.12 64.79 7.75 18.72 6.44 
600090 ST 啤酒 花 32.74 -1.23 -0.90 -71.06 -11.40-47.84 -44.79 55.56 26.81 33.30 ` 11.31 
600181 云 大 科技 15.55 -1.58 -1.45 -63.56 -220.84 -9.97 -81.70 83.44 23.4 40.51 30.56 
600522 中 天 科技 19.20 0.23 0.16 18.01 -4.51 10.12 -2.53 80.80 9.44 6.43 1.60 
600643 爱 建 股份 17.26 1.65 0.75 491.52 311.79 -12.49 901.91 78.15 1.37 2.65 1.30 
600698 ST 轻骑 891 001 0.11 38.85 229.36 86.90 -3.42 90.07 4.32 5.46 -0.30 
000869 张裕 A 53.64 5.77 182 2271 25.77 5.17 30.99 38.06 20.3 7.15 -0.74 
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( 续 上 表 ) 

代码 名 称 PIT Xu Xy Xj Xis Xis X Xis Xs Ху Xa 
000922 阿 继电器 37.67 0.36 0.33 -7.19 -35.42 5.78 -17.14 62.33 7.76 20.40 2.66 
000523 广州 浪 奇 14.50 0.11 0.10 61.50 -11.09 0.15 -5.12 85.04 8.99 5.61 -0.20 
000705 浙江 震 元 13.19 0.40 0.25 19.88 -32.67 1.8 -25.33 86.48 4.37 6.87 0.29 
000518 Щ# 46.64 4.54 3.28 10.59 99.3 18.05 38.88 52.27 0.7 10.12 0.97 
000009 深 宝安 A 37.30 0.24 0.06 38.92 -32.20 4.71 28.60 59.93 13.26 15.48 10.20 
000001 深发展 A 36.78 0.11 0.11 41.47 39.82 30.79 80.33 0.00 26.38 0.00 0.00 
000578 数码 网 络 8.86 0.08 0.03 -10.08 111.57 1.41 8.52 91.06 2.84 4.65 1.50 
000758 中 色 建 设 13.70 0.38 0.39 5.08 260. 93 22. 84 9.92 85.97 2.95 26.44 2.29 
000597 东北 药 21.45 0.16 0.11 -4.64 56.87-11.21 -7.17 78.32 7.46 9.05 4.18 


(1) 求 样本 相关 阵 R 及 特征 根 与 特征 向 量 。 


(2) 
(3) 
(4) 
(5) 


确定 因子 的 个 数 ， 并 解释 这 些 因 子 的 含义 。 
计算 各 因子 得 分 ， 画 出 前 两 个 因子 的 得 分 图 并 作出 解释 。 
对 因子 进行 旋转 ， 比 较 旋 转 前 后 因子 分 析 的 结果 。 
对 这 23 家 上 市 企业 的 财务 状况 进行 综合 评价 。 


10 对 应 分 析 及 R 使 用 


【 目的 要 求 】 要 求 了 解 对 应 分 析 的 目的 和 基本 统计 思想 ， 以 及 对 应 分 析 的 实际 意义 ; 
了 解 对 应 分 析 的 统计 原理 (特别 是 定性 变量 定量 化 ) 解决 社会 科学 中 实际 问题 的 基本 思 
路 ; 了 解 计算 软件 程序 中 对 应 分 析 的 基本 内 容 。 

【教学 内 容 】 对 应 分 析 的 目的 和 基本 思想 ; 对 应 分 析 方 法 的 基本 原理 ; 对 应 分 析 的 基 
本 分 析 步 骤 ; R 型 和 Q 型 因子 分 析 在 对 应 分 析 中 的 应 用 ; 相关 的 计算 程序 。 


10.1 对 应 分 析 的 提出 


对 应 分 析 (correspondence analysis) 是 在 因子 分 析 的 基础 上 发 展 起 来 的 。 因 子 分 析 分 
为 R 型 因子 分 析 和 Q 型 因子 分 析 。R 型 因子 分 析 是 对 变量 (指标) 作 因子 分 析 ， 研 究 的 
是 变量 (指标) 之 间 的 相互 关系 ; Q 型 因子 分 析 是 对 样品 作 因子 分 析 ， 研 究 样品 之 间 的 
相互 关系 。 而 在 错综复杂 的 经 济 和 管理 关系 中 ， 不 仅 需要 了 解 变量 之 间 的 关系 、 样 品 之 
间 的 关系 ， 还 需要 了 解 变量 与 样品 之 间 的 对 应 关系 。1970 年 Beozecri 提出 了 对 应 分 析 ， 
这 是 多 变量 统计 分 析 中 一 种 有 用 的 分 析 方 法 。 对 应 分 析 把 R 型 因子 分 析 和 Q 型 因子 分 析 
统一 起 来 ， 通 过 R 型 因子 分 析 直 接 得 到 Q 型 因子 分 析 的 结果 ， 同 时 把 变量 (指标) 和 样 
品 反映 到 相同 的 坐标 轴 ( 因子 轴 ) 的 一 张 图 形 上 ， 以 此 来 说 明 变 量 (指标 ) 与 样品 之 间 
的 对 应 关系 。 

在 经 济 管理 数据 的 统计 分 析 中 ， 经 常 要 处 理 三 种 关系 : 即 样品 之 间 的 关系 (Q 型 关 
Ж), 、 变 量 间 的 关系 (R 型 关系 ) 以 及 样品 与 变量 之 间 的 关系 《对 应 型 关系 )。 如 对 某 一 
行业 所 属 的 企业 进行 经 济 效益 评价 时 ， 不 仅 要 研究 经 济 效益 指标 间 的 关系 ， 还 要 将 企业 
按 经 济 效益 的 好 坏 进行 分 类 ， 研 究 哪些 企业 与 哪些 经 济 效益 指标 的 关系 更 密切 一 些 ， 为 
决策 部 门 正 确 指 导 企 业 的 生产 经 营 活动 提供 更 多 的 信息 。 这 就 需要 一 种 统计 方法 ， 将 企 
Чу (Em) 和 指标 (变量 ) 放 在 一 起 进行 分 析 、 分 类 、 作 图 ， 便 于 作 经 济 意义 上 的 解 
释 。 解 决 这 类 问题 的 统计 方法 就 是 对 应 分 析 。 


10.2 对 应 分 析 的 基本 原理 


对 应 分 析 是 分 析 两 组 或 多 组 变量 之 间 关 系 的 有 效 方法 ， 在 离散 情况 下 ， 它 是 从 资料 
出 发 ,通过 建立 因素 间 的 二 维 或 多 维 列 联 表 来 对 数据 进行 分 析 。 在 此 我 们 要 问 ， 这 种 分 
析 是 否 有 意义 ， 或 者 说 对 于 所 给 的 数据 是 否 值得 作 这 种 相应 分 析 。 也 就 是 说 通常 我 们 首 
先 需要 了 解 因素 间 有 无 联系 或 是 否 独立 。 这 一 节 我 们 将 介绍 对 应 分 析 与 独立 性 检验 的 内 
在 关系 ， 以 此 说 明 应 用 对 应 分 析 方 法 解决 实际 问题 时 ， 应 避免 盲目 性 ， 并 需 先进 行 因素 
的 独立 性 检验 。 一 般 用 * 检验 来 分 析 它 们 之 间 的 关系 。 
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表 10-1 一 般 的 二 维 列 联 表 


A 10 -1 的 二 维 列 联 表 可 表示 为 天 = (ky) s eh k, = kok = Yk k. = Y Yk AK, 


izijzl 


其 频率 阵 为 = (f;),、.。 用 表示 因素 4 中 第 i 水 平 发 生 的 概率 ，f ;表示 因素 В 中 第 j 水 平 
发 生 的 概率 ， 那 么 其 估计 值 分 别 为 : 
А k. А К. 
f. = E Fi = L. 
这 里 我 们 关心 的 是 因素 4 和 因素 В 是 否 独 立 ， 由 此 提出 要 检验 的 问题 是 ，; 
H,: 因素 4 和 因素 B 不 独立 
由 上 面 的 假设 所 构造 的 统计 量 为 : 


7 NS k.) 1* 
DECR) 


= Me ИН 
E(k,) 
m v [ k, -k, k /k]* 


= 22, k; k /k 


= у= 1 


-kY Y (10. 1) 


其 中 ，z = (Е, Е, k/k)/ Е, Е, МЕИ Н: 因素 4 和 因素 В 是 独立 的 成 立时 ,在 

n 足够 大 的 条 件 下 , X 服从 自由 度 为 (r -1)(c -1) 的 x 分 布 ,拒绝 区 域 为 : 
X >X ol (r-1)(c-1)] (10. 2) 

独立 性 检验 只 能 判断 因素 4 和 因素 B 是 否 独 立 。 如 果 因 素 4 和 因素 B 独立 ， 则 没有 
必要 进行 对 应 分 析 ; 如 果 因 素 А 和 因素 В 不 独立 ， 则 可 以 进一步 通过 对 应 分 析 考 察 两 因 
素 各 个 水 平 之 间 的 相关 关系 。 

【 例 10 -1】 收 入 与 职业 满意 度 的 调查 分 析 : 将 一 个 由 1 090 人 组 成 的 样本 按 五 个 收 
入 类 别 和 四 个 职业 满意 度 进行 交叉 分 类 ， 所 得 结果 见 表 10 -2。 首 先 探 讨 收 入 和 职业 满意 
度 之 间 是 否 有 关联 。 
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ç 
表 10 -2 收入 与 职业 满意 度 的 调查 结果 
年 收入 很 不 满意 有 些 不 满 比较 满意 很 满意 
<1 万 42 82 m" 55 
1 万 ~2 万 35 62 165 118 
37-57 13 28 92 81 
5 万 ~10 万 7 18 54 75 
>10 万 3 7 32 54 


下 面 对 例 10 -1 的 数据 进行 xX Rue. 
4 在 mvstats. xls:d10.2 中 选取 A1:E6 区 域 ,然后 拷 页 | 
i> X = read. table( " Clipboarel" ,header = T) 

m chisq. test( X) # 卡 方 检验 

| Pearson's Chi-squared test 

' data:X ` 


bm тт тт =т=т =т= т от тт т ттт тот чш тот тт т т - momo w. <Á... -Á..-..-.. ч == чоч чт тот єт отот ттт = оч= тот чт тот тт тот чт т от == тот тш тот чт т от тт тот тт т от отт тот тт тот om 


由 于 xX 值 等 于 118.095 9, Р <0.001， 所 以 拒绝 原 假设 Hy, #52 Н,, UAAR A 和 
因素 B 不 独立 ， 即 收入 与 满意 度 之 间 有 密切 联系 ， 可 以 进一步 作对 应 分 析 。 

上 面 主要 是 针对 定性 数据 所 进行 的 列 联 表 分 析 ， 而 在 经 济 管理 数据 的 统计 分 析 中 ， 
对 定量 数据 ， 经 常 要 处 理 三 种 关系 ， 即 样品 之 间 的 关系 (Q 型 关系 ) 、 变 量 之 间 的 关系 
(R 型 关系 ) 以 及 样品 与 变量 之 间 的 关系 〈 对 应 型 关系 ) 。 | 

在 因子 分 析 中 ， 可 以 用 较 少 的 公共 因子 来 提取 样本 数据 的 绝 大 部 分 信息 ， 这 样 就 可 
以 考察 较 少 的 因素 而 获得 足够 的 信息 。 而 R 型 因子 分 析 和 Q 型 因子 分 析 只 是 对 变量 和 样 
品 分 别 作 因子 分 析 ， 并 没有 考虑 变量 和 样品 之 间 的 联系 ， 损 失 了 一 部 分 信息 。 此 外 ， 在 
实际 问题 中 ， 样 品 的 数目 远大 于 变量 的 数目 ， 在 进行 Q 型 因子 分 析 时 ， 计 算 工 作 量 远大 
F R 型 因子 分 析 。 

实际 上 ，Q 型 因子 分 析 与 R 型 因子 分 析 分 别 反映 了 整体 的 不 同 侧面 ， 因 此 它们 之 间 
也 必然 有 内 在 的 联系 。 对 应 分 析 就 是 通过 巧妙 的 数学 变换 ， 把 Q 型 与 R 型 因子 分 析 有 机 
地 结合 起 来 。 具 体 来 说 ， 通 过 一 个 过 渡 和 矩阵 Z (如 式 10.1) 对 数据 进行 处 理 ， 得 到 变量 
的 协 方差 矩阵 A = Z'Z 与 样品 的 协 方差 矩阵 B = ZZ'。 根 据 和 矩阵 的 代数 性 质 ， 协 方差 矩阵 
4 与 有 相同 的 非 零 特征 根 ， 记 为 A 宇和 ,三 … 宇 A,。 进 一 步 地 ， 阁 和 矩阵 4 的 特征 根 А, 对 
应 的 特征 向 量 为 U,, WU] В 对 应 的 特征 向 量 就 是 ZU, = Vi;。 这 样 就 可 以 很 方便 地 从 R 型 因 
子 分 析 得 到 Q 型 因子 分 析 的 结果 。 下 面 给 出 对 应 分 析 具 体 的 数学 变换 过 程 。 

设 有 个 样品 ， 每 个 样品 有 p 个 变量 ， 即 资料 阵 为 : 


Xi Xp Xip 
X21 X> ... х2, 

Х = * . . . =(x;),xp 4 
Хы Хә ха), х, 


Xf X жж x, ORABAT O (否则 ， 对 所 有 数据 同 加 上 一 个 数 使 其 满足 大 于 0 的 条 件 )。 
现在 ， 我 们 既 需 要 对 变量 求 它 的 主 成 分 ， 又 需要 对 样品 求 主 成 分 。 用 表示 数据 阵 ， 
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它 的 样品 协 方差 阵 为 У, = A, XE A 是 样品 离 差 阵 4= (ау), ЖР 


a; = Y (xu x) (а-а), 这 里 i, j=1, …,p (10. 3) 


于 是 4=X'DX, 其 中 D, =I. -Elo 


因此 ， 一 般 4 和 4" 的 非 零 特征 根 并 不 一 样 。 能 否 把 数据 阵 X 作 一 变换 ， 成 为 Z， 使 
得 Z'Z 和 22Z' 能 起 到 4 和 4 "的 作用 呢 ? 由 于 Z'Z 和 2Z' 有 相同 的 非 零 特征 根 ， 它 们 相应 
的 特征 向 量 也 有 和 密切 的 关系 ， 在 计算 时 可 带 来 许多 方便 。 下 面 首先 介绍 如 何 从 原始 数据 
X 转 化 为 Z 阵 。 用 x; 、x; 和 .分 别 表示 XX 的 行 和 、 列 和 与 总 和 。 


而 将 样品 看 成 变量 时 ， 它 的 离 差 阵 为 4* = рх", D, =l, - LI 


因而 p, 可 解释 为 “概率 ”。 类 似 地 ， 用 p. 、p /分别 表示 P 阵 的 行 和 与 列 和 。 

ES Z= (z), HP 2, = (p; -pipj)/VPiP; = (х; -txa atn WAA 
Z'Z， 即 变量 的 协 方差 阵 可 以 表示 成 Z'Z 的 形式 。 类 似 地 可 以 求 样品 的 协 方差 ， 最 后 可 
得 B=2Z'。 

由 矩阵 知识 可 得 如 下 定理 。 

定理 10.1 设 4=2Z'Z, B-ZZ', 和, 是 4 的 非 零 特 征 根 , ;为 相应 的 特征 向 量 ， 则 有 

(1) A 与 B 的 所 有 非 零 特征 根 相等 。 

(2) B 的 非 零 特 征 根 А, 所 对 应 的 特征 向 量 为 z'e,。 

此 定理 告诉 我 们 只 需 从 4 出 发 进行 R 型 因子 分 析 ， 就 可 容易 地 得 到 Q 型 因子 分 析 的 
结果 ， 另 外 4 与 刀具 有 相同 的 非 零 特 征 根 ， 注 意 到 特征 根 是 对 应 的 公 因子 所 提供 的 方差 
贡献 这 一 事实 ， 那 么 就 可 以 用 相同 的 公 因子 轴 去 表示 变量 和 样品 。 


10.3 ”对 应 分 析 的 计算 步骤 


设 有 个 变量 的 个 样品 观测 数据 矩阵 X = (x ),、， 其 中 x >0。 对 数据 矩阵 下 作对 
应 分 析 的 具体 步骤 如 下 ; 

(1) 由 数据 矩阵 X， 计 算 规 格 化 的 概率 矩阵 已 =<(P Ls 

(2) 计算 过 渡 矩 阵 Z = (z), = (如 -请 PLD) „(#—®®/х.., 


VP. Pi JE; 7 
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(3) 进行 因子 分 析 。 
l) R 型 因子 分 析 : 计算 4 = Z'Z 的 特征 根 А, 三 A, 宇 … 宇和 A,， 按 照 累积 百分比 
SA/EA 28590, BUE m 个 特征 根 入 ,，A，，…，A。， 并 计算 相应 的 单位 特征 向 量 u, 
us，…，un， 得 到 因子 载荷 矩阵 : 
Шү FT ир VA ** is ds 
F- i: ux À; `7" TERN A 


uw Ji и, ZA; Ud. AS 
2) Q 型 因子 分 析 : 由 上 述 求 得 的 特征 根 ， 计 算 B =2ZZ' 所 对 应 的 单位 特征 向 量 Ze, = v;, 
得 到 因子 载 从 矩阵 : | 
Uu JA, VÀ; … Vim JAn 
C= 71 "n" Uy VA2 … Um МА 


va VAL VÀ. ct 0, n 

(4) 作 变 量 点 图 与 样本 点 图 。 

分 析 上 一 f, 上 的 变量 之 间 的 关系 ; 分 析 G1 一 6, 上 的 样品 之 间 的 关系 ; 同时 综合 分 析 
变量 和 样品 之 间 的 关系 。 

上 述 对 应 分 析 的 推导 主要 是 针对 定量 数据 进行 的 。 对 定性 数据 ， 以 往 在 分 析 时 只 是 
通过 列 联 表 来 表现 它们 之 间 的 关系 ， 通 过 Xx 检验 来 分 析 它 们 之 间 的 关系 。 如 果 仅 仅 是 两 
个 变量 ， 且 每 个 变量 类 别 较 少 的 时 候 ， 列 联 表 可 将 它们 之 间 的 关系 表现 得 比较 清楚 ， 但 
在 每 个 变量 划分 为 多 个 类 别 的 情况 下 就 很 难 直观 地 揭示 出 变量 之 间 的 内 在 联系 。 对 应 分 
析 方 法 的 运用 可 以 有 效 地 解决 这 些 问题 。 对 应 分 析 是 通过 变量 变换 的 方法 对 数据 进行 因 
子 分 析 ， 变 换 后 的 过 渡 和 矩阵 与 数据 的 单位 和 尺度 已 无 多 大 关系 ， 所 以 对 定性 数据 也 可 以 
按 上 述 方法 进行 对 应 分 析 。 


对 应 分 析 肾 数 corresp( ) 的 用 法 


‚„) 


x 表示 进行 对 应 分 析 的 数据 矩阵 
nf 表示 计算 因子 的 个 数 


下 面 是 对 例 10 — 1 数据 所 作 的 对 应 分 析 的 结果 : 
(1) 进行 对 应 分 析 。 


жттчтт=тттчттт т т ттт т ттт тттт отт тт т ттт отт ттт т =т= ш ттт то ш ош шш ж оъ шв ш ош шш ш ош эш ш ш шш ш ш шш в ш шы ш а шш ш ш шш а ш шш а а а а а ШЫ аф арф а T. ..Á..⁄é.r.-.Á..-Á..-Á-.Á.-Á.....4-.Á.... 


He 
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(2) 计算 行 和 列 得 分 。 


和 


| 

| First canonical correlation(s) : 0.307 0.119 
| Row scores; 
| К [ ,2] ; 
E - 1. 6748 - 0. 761 : 
: 1 万 ~3 万 0. 0287 1. 039 | 
d 3-55 0. 5540 0. 584 : 
' 5 万 ~10 万 0. 9387 -1.097 ) 
: »109Í 1. 4372 - 1. 706 | 
Column scores : i 
| [,1] 2] | 
: ”很 不 满意 -1.671 - 0. 066 ; 
г ”有 些 不 满 -1.541 -0. 567 | 
:比较 满意 0. 320 1. 239 i 
:很 满意 ____ 0.887. оона оа 


rtm rr 


:> biplot( cal); abline( v z0,h =0,lty 23) 
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(4) 对 应 图 分 析 。 
根据 上 图 可 将 样本 点 和 变量 分 为 三 组 : 
第 一 组 ， 变 量 : <1 万 
样品 : 有 些 不 满 、 很 不 满意 
第 二 组 ， 变 量 : 1 万 ~3 万 、3 万 ~5 万 
样品 : 比较 满意 
第 三 组 ， 变 量 : 5 万 ~10 万 、>10 万 
样品 : 很 满意 


10 对 应 分 析 及 只 使 用 fez 

在 图 形 中 ， 相 似 的 类 会 聚 在 一 起 ， 靠 得 很 近 ， 因 而 我 们 根据 两 种 定性 变量 〈 收 入 与 
职业 满意 度 ) 之 间 的 距离 ， 就 可 以 得 出 两 个 变量 的 哪些 类 相似 ， 从 而 进行 分 组 。 根 据 分 
组 情况 ， 我 们 可 以 看 出 收入 在 1 万 元 以 下 的 人 对 自己 的 职业 有 些 不 满 或 者 很 不 满意 ， 而 
收入 在 1 万 到 5 万 元 之 间 的 人 对 自己 的 职业 感到 比较 满意 ， 而 收入 在 5 万 元 以 上 的 人 大 
都 对 自己 的 职业 感到 很 满意 。 

【 例 10 -2】 对 我 国 31 个 省 、 市 、 自 治 区 按 各 种 经 济 类 型 资产 占 总 资产 比重 (%), 
利用 1997 年 数据 作对 应 分 析 。 本 例 共 考虑 6 个 变量 ， 分 别 是 国有 经 济 / 总 资产 、 集 体 经 
济 / 总 资产 、 联 营 经 济 /总 资产 、 股 份 制 经 济 / 总 资产 、 外 商 投资 经 济 /总 资产 、 港 澳 台 经 
济 / 总 资产 ， 数 据 见 表 10 -3。 


表 10 -3 我 国 31 个 省 、 市 、 自 治 区 各 种 经 济 类 型 资产 占 总 资产 比重 (%) 
编号 。 地 区 国有 经 济 ”集体 经 济 ”联营 经 济 ”股份 制 经 济 外 商 投资 经 济 港澳 台 经 济 
1 北京 0.64923 0. 099 78 0. 009 169 0.031 23 0. 153 55 0. 055 02 
2 天 津 0. 546 26 0. 080 76 0.011 522 0.048 87 0. 243 37 0. 061 23 
3 河北 0.65573 0.17008 0.002342 0. 057 44 0. 060 67 0. 045 45 
4 山西 0.796 96 0. 138 75 0.001 196 0.030 47 0. 018 55 0. 013 45 
5 内 蒙古 0.78670 0.09146 0.001896 0. 053 60 0.034 87 0. 024 44 
6 辽宁 0.67643 0.11246 0.004802 0.068 51 0. 095 81 0. 031 72 
7 吉林 0.775 43 0. 088 99 0.000 99 0. 066 03 0. 051 36 0. 014 00 
8 黑龙 江 0. 767 05 0. 088 91 0. 000 881 0. 080 34 0. 039 67 0. 0208 1 
9 r5 0. 474 14 0. 079 72 0.024211 0.12517 0. 232 27 0. 064 49 
10 江苏 0.38035 0.31643 0.015731 0.07001 0. 128 28 0. 078 04 
11 浙江 0.35546 0. 373 45 0.007622 0.10307 0. 092 72 0. 054 71 
12 安徽 0.54807 0. 182 17 0. 002 694 0.184 16 0. 051 11 0. 016 23 
13 福建 0.33717 0.09201 0.011277 0.065 52 0. 155 25 0. 326 42 
14 江西 0. 758 64 0. 138 78 0.003087 0.026 30 0. 055 08 0. 012 89 
15 山东 0. 557 59 0. 238 73 0.002 097 0.067 47 0. 093 76 0. 035 70 
16 河南 0.64351 0.17826 0.00278 0. 091 27 0. 032 78 0. 042 17 
17 湖北 0.61639 0. 148 63 0.005496 0. 134 31 0. 070 68 0. 022 52 
18 湖南 0.73401 0. 165 34 0.000837 0. 035 05 0. 040 75 0. 016 22 
19 广东 0.29000 0.14267 0.010985 0.076 34 0. 160 66 0.314 67 
20 广西 0.65484 0. 160 93 0. 003 532 0. 069 72 0. 078 65 0. 026 89 
21 海南 0.50979 0. 02691 0.009083 0.18364 0. 131 56 0. 127 36 
22 重庆 0.67535 0.1273 0.002224 0.08733 0. 071 55 0. 027 94 
23 川 0.66010 0. 134 63 0. 002 953 0.14922 0. 027 97 0. 014 56 
24 贵州 0.82825 0.08660 0. 008 34 0. 041 25 0. 019 13 0. 013 09 
25 云南 0.76543 0.11113 0.002 751 0.073 72 0. 026 40 0. 018 11 
26 西藏 0.77082 0.10634 0.046613 0.02476 0. 023 79 0. 022 82 
27 陕西 0.80185 0. 087 42 0.002488 0. 04096 0. 033 94 0. 031 49 
28 甘肃 0.82696 0. 099 09 0.000988 0.045 03 0. 014 43 0. 012 64 
29 青海 0. 895 09 0. 039 64 0.001087 0. 052 35 0. 002 81 0. 006 42 
30 宁夏 0.763 52 0.08235 0.002085 0.079 33 0. 060 75 0. 008 85 
31 ym 0. 841 05 0. 083 84 0. 004 328 0.031 46 0.011 57 0. 024 58 
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(1) 读数 据 。 
dr mvstats. xls: 010. 2 中 选取 A1: G32 区 域 , 然 后 拷贝 О 
:» X = read. table( " clipboard" , header = T) ` 


CIPIT" от тт т от тт т от тт ж ож тт ж ож тш = ош чш т от отт т от тш жо тш тош жт ж ош тш т от отт тот тш жож тш к ож тт жож чш ж ош тт т от тш тот тт тош 


* == <= 4 5 ж 5 5ш 5 5 шш 5 5 шш ш шш 5 Ф шш 5 Á... ILLI ш Á... Á... шш ш ш Á... шш ш ш шш ш ш чш ш ш шш ш c . шш ш a т . ae тот Disi = = тт т т о =т = = шш т 1 ч 


Row scores: 


ILI LIC —AlL———wolle——————————————————————————————————————————— 


First canonical correlation( s) ; 0. 402 0. 223 


x 
i 
x . 
x [.1] [.2] | 
NE - 0. 302 0. 3516 | 
| 天津 - 0. 861 0. 1298 ' 
;河北 0.109 -0.3359 : 
;山西 0.776 0.2163 
i 内 蒙古 0.611 0. 6241 : 
Enc. 0. 130 0. 0631 : 
ой 0.611 0. 4601 x 
: ”黑龙 江 0.574 0. 4589 : 
i ЕЮ -1.034 -0.2704 | 
! 江苏 -0.931 -2.3019 
: 浙江 -0. 664 -3.1787 
EE 0. 132 - 1.4177 | 
| ш -3. 105 1. 7208 | 
; ”江西 0. 589 0. 0803 | 
ШЖ -0.113 -1.3991 
;河南 0.194 -0.5533 : 
! 湖北 0.146 .-0.7100 
: 湖南 0.569 -0.2188 ! 
; 广东 -3. 100 0. 9624 | 
| 广西 0. 186 -0.4723 
:海南 -1.129 0. 7600 | 
;重庆 0.238 -0.1473 | 
! 四 川 0. 444 -0. 5255 
: ”贵州 0. 820 0. 7533 : 
ME 0. 637 0. 2686 : 
西藏 0. 551 0. 5877 
;陕西 0. 584 0. 7995 : 
EET. 0. 848 0. 6126 | 
; ”青海 1. 063 1. 2886 : 
; TE 0. 591 0. 3897 
EN 0. 789 0. 9476 | 


тен а аан н ннн нн на н а н т н н и н н н н н 8 а а а а Н а а а да ла а н а а а а а а а Ы 1 0 Н Е Е Т А Р ИН т А и бн е В Н 8 е н а а е н а н а 


| 1,1] [2] 
' 国有 经 济 0. 537 0. 459 i 
| 集体 经 济 -0.207 -2.198 | 
| 联营 经 济 -1.014 0. 089 | 
| 股份 制 经 济 — -0.358 -0.910 
| 外 商 投资 经 济 -1. 567 -0.430 | 
: 港澳 台 经 济 -3.424 1. 688 


包间 三 


* = = == = = шш = ш шш = ш шш в ш шш ш шош ш ш жы т ® єт ож тотт т т шш тош тт от от отт т т отт т ттт т от тт т от тт от т отт то тт тот тт т от тт т т отт т от тт тот тт т ч тт тт “к ттт т т отт т т тт тот тт чю "к чт “т тт тт тот ттт "ш т отт т ок тте тоте от оочу 


:> biplot( ca2) ;abline( v =0,h =0,lty =3) 
' -1.0 -0.5 0.0 0.5 


-0.5 0.0 


-1.0 


' 
LAM, ALD 


(4) 对 应 分 析 : 
根据 上 图 可 将 样本 点 和 变量 分 为 五 类 : 
第 一 类 ， 变 量 : 港澳 台 经 济 / 总 资产 ; 
样品 : 广东 、 福 建 。 
第 二 类 ， 变 量 : 外 商 投资 经 济 /总 资产 、 联 营 经 济 / 总 资产 ; 
样品 : 北京、 天津、 上海、 海南。 
第 三 类 ， 变 量 : 集体 经 济 / 总 资产 ; 
样品 : 浙江 、 江 苏 。 
第 四 类 ， 变 量 : 股份 制 经 济 / 总 资产 ; 
样品 : 安徽 、 山 东 。 
第 五 类 ， 变量 : BAZN AA: 
样品 : 其 他 省 份 。 
结合 1997 年 我 国 各 地 经 济 发 展 的 实际 情况 ， 这 样 划 分 还 是 比较 合理 的 。 第 一 类 中 ， 
样品 为 广东 和 福建 ， 这 两 个 省 份 毗 邻 港 澳 台 地 区 ， 港 澳 台 华侨 较 多 ， 所 以 港澳 台 经 济 占 
主导 。 第 二 类 中 ， 样 品 为 北京 、 天 津 、 上 海 、 海 南 ， 这 些 为 直辖 市 或 经 济 特区 ， 所 以 以 
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外 商 投资 经 济 和 联营 经 济 为 主 。 第 三 类 中 ， 样 品 为 浙江 、 江 苏 ， 是 集体 经 济 的 大 省 。 第 
四 类 中 ， 样 品 为 安徽 和 山东 ， 是 股份 制 经 济 搞 得 较 好 的 省 份 。 第 五 类 为 其 他 省 份 ， 这 些 
省 份 由 于 传统 因素 的 影响 ， 仍 然 以 国有 经 济 为 主 。 


10.4 对 应 分 析 应 注意 的 几 个 问题 


一 般 地 ， 对 应 分 析 常 规 地 处 理 定量 的 数据 和 矩阵， 这些 数据 具有 在 主 成 分 分 析 、 因 子 
分 析 、 聚 类 分 析 等 分 析 中 所 处 理 的 数据 形式 。 在 对 应 分 析 中 ， 根 据 各 行 变量 的 因子 载荷 
和 各 列 变量 的 因子 载荷 之 间 的 关系 ， 行 因子 载荷 和 列 因 子 载荷 之 间 可 以 两 两 配对 。 如 果 
对 每 组 变量 选择 前 两 列 因子 载荷 ， 那 么 两 组 变量 就 可 以 画 出 两 个 因子 载荷 的 散 点 图 。 由 
于 这 两 个 图 所 表示 的 载荷 可 以 配对 ， 于 是 就 可 以 把 这 两 个 因子 载荷 的 散 点 图 重 普 地 画 到 
同一 张 图 中 ， 并 以 此 直观 地 显示 各 行 变 量 和 各 列 变量 之 间 的 关系 。 定 性 资料 通常 用 列 联 
表 进 行 分 析 ， 处 理 列 联 表 的 问题 仅仅 是 对 应 分 析 的 一 个 特例 。 由 于 列 联 表 数 据 形式 和 一 
般 的 定量 变量 的 数据 形式 类 似 ， 所 以 也 可 以 用 对 应 分 析 的 数学 方法 来 研究 行 变 量 各 个 水 
平和 列 变量 各 个 水 平 之 间 的 关系 ， 虽 然 对 不 同 数据 类 型 所 产生 结果 的 解释 有 所 不 同 ， 但 
数学 的 原理 是 一 样 的 。 

另外 ， 我 们 在 进行 对 应 分 析 时 还 需 注意 以 下 几 个 问题 : 

(1) 不 能 用 于 相关 关系 的 假设 检验 。 对 应 分 析 只 能 说 明 两 个 变量 之 间 的 联系 ， 而 不 
能 说 明 这 两 个 变量 存在 的 关系 是 否 显著 ， 只 是 用 来 揭示 这 两 个 变量 内 部 类 别 之 间 的 关系 。 

(2) 维度 由 研究 者 根据 变量 所 含 的 最 小 类 别 数 决定 。 由 于 维度 取舍 不 同 ， 其 所 包含 
的 信息 量 也 有 所 不 同 ， 一 般 来 讲 ， 如 果 各 变量 所 包含 的 类 别 较 少 ， 则 在 两 个 维度 进行 对 
应 分 析 时 损失 的 信息 量 才 能 较 少 。 

(3) 对 极端 值 应 作 敏感 性 研究 。 

(4) 研究 对 象 要 有 可 比 性 。 

(5) 变量 的 类 别 应 涵盖 所 有 可 能 出 现 的 情况 。 

(6) 对 应 分 析 的 基础 是 交叉 汇总 表 〈 即 列 联 表 ) ， 也 表示 行 、 列 的 对 应 关系 。 

(7) 对 应 分 析 、 因 子 分 析 和 主 成 分 分 析 虽 然 都 是 多 变量 统计 分 析 ， 但 对 应 分 析 的 目 
的 与 因子 分 析 或 主 成 分 分 析 的 目的 是 完全 不 同 的 。 前 者 是 通过 图 形 直 观 地 表现 变量 所 含 
类 别 间 的 关系 ， 后 者 则 是 为 了 降 维 。 | 

(8) 在 解释 图 形变 量 类 别 间 关系 时 ， 要 注意 所 选择 的 数据 标准 化 方式 ， 不 同 的 标准 
化 方式 会 导致 类 别 在 图 形 上 的 不 同 分 布 。 


案例 分 析 : 对 应 分 析 在 产品 定位 中 的 应 用 及 R 操作 


对 应 分 析 最 终生 成 的 图 形 ， 能 够 为 企业 对 于 自己 所 处 的 市 场 状 态 、 战 略 和 产品 的 策 
略 定位 有 更 加 清晰 的 认识 。 比 如 ， 在 市 场 细 分 研究 实践 中 ， 往 往 遇 到 的 问题 就 是 到 底 是 
哪些 背景 〈 受 教育 程度 、 收 入 、 职 业 等 ) 的 消费 者 在 使 用 我 们 的 产品 ， 他 们 在 消费 行为 
上 有 什么 差异 ， 我 们 的 产品 品牌 形象 与 竞争 对 手相 比 在 消费 者 心目 中 究竟 是 怎样 的 ， 等 
等 。 以 往 在 分 析 时 只 是 通过 列 联 表 来 表现 它们 之 间 的 关系 ， 通 过 检验 来 分 析 它 们 之 间 的 
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关系 。 如 果 仅 仅 是 两 个 变量 ， 且 每 个 变量 类 别 较 少 的 时 候 用 这 样 的 方法 表现 得 比较 清楚 ， 
但 在 每 个 变量 划分 为 多 个 类 别 的 情况 下 就 很 难 直观 地 揭示 出 变量 之 间 的 内 在 联系 。 对 应 
分 析 方 法 的 运用 可 有 效 地 解决 这 些 问 题 。 

对 应 分 析 技 术 在 市 场 细 分 、 产 品 定 位 、 品 牌 形象 以 及 满意 度 研 究 等 领域 得 到 越 来 越 
广泛 的 运用 。 本 文 对 中 国 媒体 网 站 进行 评价 ， 分 析 媒 体 网 站 的 定位 。 根 据 网 站 评价 Web 
站 点 Alexa 所 提供 的 评价 指标 数据 ， 选 取 了 5 个 指标 作为 媒体 网 站 评价 的 标准 : 流量 、 访 
问 量 、 被 连接 数 、 速 度 、 浏 览 页 面 数 。 
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二 、R 语言 操作 

1. 调 入 数据 | 

选中 сазе10 中 的 数据 并 复制 ， 然 后 在 В 编辑 器 中 执行 caselO = read. table( " clipboard" , 
header = T), 

2. 进行 对 应 分 析 

3. 做 对 应 图 
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> library(MASS) м = 
> CR=corresp(case10, 2) ;CR m en clipboard", header=T) 
First canonical correlationí(s): 0.4866 0.2016 "CR к sp (case10, 2) :CR 


Row scores: Ẹbiplot (CR) ;abline(h»0, v=0, 1ty=3) 


L1 [,2] 
-1.32609 1.2104 
-0.94744 0.1802 
1.82293 2.1909 
-1.24917 -0.3143 
-2.06680 -3.0699 
-1.72625 -2.5678 

0.73342 0.1974 
0.90936 20.1084 
0.65484 0.2411 
0.74433 -1.1476 
-0.68192 -0.1694 
0.08367 -0.2523 
-0.97442 1.3014 
-1.98880 3.6459 
-1.17273 0.4029 
-1.30134 -0.7256 
-1.96820 20.1185 
1.05479 -1.8570 


1,2) 
Li -1.1490 -1.1516 
пай 0.839€ -0.1184 
被 连接 数 -0.90308 1.6265 
E -2.0144 -1.0843 
WAR -1.1411 -1.8041 
|» poem 
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根据 上 图 可 将 样本 点 和 变量 分 为 四 类 : 
第 一 类 ， 变 量 : 访问 量 ; 
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样品 : 网 易 、 搜 狐 、 新 浪 、Tom、21cn。 
第 二 类 ， 变 量 : 速度 ; 
样品 : 中 国 新 闻 网 、ZDNet China, #0. 
第 三 类 ， 变 量 : 无 ; | 
样品 : 硅谷 动力 、 中 关 村 在 线 ; 
第 四 类 ， 变 量 : 被 连接 数 、 流 量 、 浏 览 页 面 数 ; 
样品 : 天 极 网 、 人 民 网 、 凤 凰 网 、 电 脑 之 家 等 。 

从 而 我 们 可 以 知道 ， 样 本 网 站 聚集 成 四 类 ， 分别 是 QD 门户 网 站 : 网 易 、 搜 狐 、 新 浪 、 
Tom、21cn， 它 们 的 优势 在 于 访问 量 。 巨 大 的 访问 量 成 为 门户 网 站 营销 的 基础 ， 对 于 门户 
网 站 来 说 ， 重 点 应 该 解决 信息 的 质量 和 有 效 性 ， 提 高 用 户 对 网 站 的 可 用 性 评价 和 信息 服 
务 的 内 容 质量 。@ 中 国 新 闻 网 、ZDNet China 、 新 华 网 ， 这 三 个 网 站 的 访问 量 不 够 造成 了 
其 他 指标 落后 。 因 此 ， 这 三 个 网 站 的 首要 任务 就 是 加 大 用 户 访 问 量 ， 提 高 信息 质量 和 网 
站 宣传 的 力度 ， 扩 大 知名 度 。 色 第 三 类 网 站 是 硅谷 动力 和 中 关 村 在 线 。 它 们 各 项 指标 均 
比较 低 ， 因 此 在 图 上 处 于 较 偏 的 位 置 ， 这 点 应 该 引起 这 两 家 网 站 管理 者 的 高 度 重视 。 
(第 四 类 是 新 闻 类 和 部 分 IT 类 网 站 。 这 类 网 站 的 特征 就 是 用 户 浏览 页 面 较 多 ， 停 留 时 间 
较 长 ， 这 充分 说 明 新 闻 类 网 络 媒体 的 定位 是 以 提供 有 价值 的 信息 为 主 。 在 不 降低 内 容 质 
量 的 同时 ， 这 类 网 站 应 该 注重 访问 量 和 访问 速度 的 改进 。 从 图 上 来 看 ， 这 两 个 方面 是 新 
闻 类 网 站 最 薄弱 的 环节 。 


案例 分 析 题 
从 给 定 的 题目 出 发 ， 按 内 容 提要 、 指 标 选取 、 数 据 搜 集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 
1. 对 各 地 区 有 害 气体 平均 浓度 作对 应 分 析 。 
. 分 析 我 国 国 民 经 济 各 行业 更 新 改造 投资 情况 。 
.对 我 国货 币 发 行 增长 率 进行 对 应 分 析 。 
.用 对 应 分 析 研 究 2010 年 我 国 职工 收入 与 职业 满意 度 之 间 的 关系 。 
.用 对 应 分 析 研 究 1990—2010 年 全 国 社会 消费 品 零售 额 的 构成 。 
. 心理 健康 状况 与 家 庭 经 济 状 况 之 间 的 对 应 分 析 。 
. 科技 投入 与 经 济 关 系 的 研究 。 
. 1990—2010 年 工资 和 物价 指数 的 变化 与 人 民生 活水 平 改 善 的 关系 。 
. 2010 年 中 国 各 行业 在 四 大 媒介 上 的 广告 费用 的 研究 。 
10. 不 同 消费 者 对 不 同 品牌 的 手机 的 偏好 分 析 。 


Do м Сс л Po UN 


思考 练习 题 

一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 

l. 对 应 分 析 产 生 的 原因 及 背景 是 什么 ? 
2. 对 应 分 析 的 基本 思想 是 什么 ? 

3. 试 述 对 应 分 析 与 因子 分 析 的 区 别 和 联系 。 
4. 试 述 应 用 对 应 分 析 的 注意 事项 。 
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二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 
1. 试 根据 书 中 介绍 的 对 应 分 析 原 理 ， 自 行 编制 进行 对 应 分 析 的 R 语言 函数 。 
2. 我 国 农 村 居民 家 庭 纯 收入 的 对 应 分 析 。 

2002 年 我 国 各 地 区 农村 居民 家 庭 按 来 源 分 的 纯 收入 单位 : 元 


工资 性 家 庭 经 营 纯 财产 性 转移 性 
ms c: 收入 x 收入 x， 收入 x, 收入 x 
| 北京 3 429. 68 1 371. 27 341. 27 256. 25 
2 天 津 2 060. 23 2 000. 18 72. 65 145. 65 
3 河北 1 043. 67 1 506. 11 77.51 57.87 
4 山西 866. 47 1 210. 33 15. 23 57. 79 
5 内 蒙古 320. 03 1 694. 40 20. 57 51.02 
6 辽宁 1 020. 62 1 618. 68 42. 64 69. 39 
7 吉 388. 99 ] 867.95 0.39 43. 66 
8 黑龙 江 376. 55 1 861. 11 95. 56 72. 03 
9 上 海 4 920. 43 764. 52 206. 96 331. 64 
10 江苏 1 993. 74 1 781. 40 61. 17 143. 48 
11 浙江 2 437. 42 2 075. 34 192. 09 235. 51 
12 安徽 707. 68 1 304. 80 31.16 73.92 
13 福建 1 246.01 1 926. 18 79. 42 287. 22 
14 江西 927. 35 1 302. 62 20. 65 55. 83 
15 山东 1 056. 70 1 728. 52 46. 09 116. 34 
16 河南 567. 07 I 548. 79 32. 45 67. 43 
17 湖北 662. 19 1 694. 40 14. 09 73. 38 
18 湖南 914. 31 1 376.71 29. 02 77. 88 
19 广东 1 714. 11 1 869. 56 139.71 188. 52 
20 广西 686. 57 1 236. 26 9.11 80. 66 
21 海南 304. 81 1 952. 16 30. 63 135. 61 
22 重庆 783. 12 1 164. 79 17. 17 132. 50 
23 四 川 711. 38 1 296. 53 27. 02 72.71 
24 贵州 386. 86 988. 92 29. 55 84. 58 
25 云南 286. 17 1 193. 26 60. 43 68. 79 
26 西藏 205. 61 1 062. 52 60. 97 133. 17 
27 陕西 550. 51 915. 31 39. 57 90. 85 
28 甘肃 447. 41 1 056. 87 17. 27 68. 76 
29 青海 401. 51 1 161. 88 39. 04 66. 52 
30 宁夏 526. 68 1 265. 29 57.33 68. 05 
31 新 疆 142. 10 1 664.01 31.73 25.42 


资料 来 源 :《 中 国 统计 年 鉴 2003》。 


(1) H P EEM Z ЖЕ, 
(2) 求 矩阵 A 及 其 特征 根 和 特征 向 量 。 
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(3) 计算 主因 子 的 因子 载荷 ， 画 出 前 两 个 因子 的 得 分 图 并 作出 解释 。 
3. 将 由 1 660 个 人 组 成 的 样本 按 心理 健康 状况 和 社会 经 济 状 况 进 行 交 叉 分 组 ， 分 组 
结果 如 下 表 。 试 对 这 组 数据 实施 对 应 分 析 ， 解 释 所 得 结果 ， 判 断 数 据 间 的 联系 能 否 很 好 
地 在 二 维 图 中 反映 。 


心理 健康 状况 与 社会 经 济 状况 数据 
父母 社会 经 济 状况 
心理 健康 状况 
X, X, X, X, X, 
好 121 57 72 36 21 
轻微 症状 188 105 141 97 71 
中 等 症状 112 65 77 54 54 
zt 86 60 94 78 71 


资料 来 源 : Srole. L. et al. The Midtown Manhatten Study. New York: NYU Press, 1978. 

4. 对 应 分 析 在 农民 收入 分 析 中 的 应 用 。 

根据 统计 年 鉴 上 的 口径 ， 农 民 纯 收入 等 级 分 为 五 个 水 平 : 低 收 入 户 、 中 低 收入 户 、 
中 等 收入 户 、 中 高 收入 户 、 高 收入 户 。 其 中 低 收入 户 包 括 了 人 均 纯 收入 在 1 500 元 以 下 
户 ， 为 了 方便 ， 本 文 将 人 均 纯 收入 在 1500 元 以 下 户 独立 作为 一 个 水 平 。 

平均 每 百 个 劳动 力 的 文化 程度 分 为 六 个 等 级 : 文 育 或 半 文 盲 、 小 学 程度 、 初 中 程度 、 
高 中 程度 、 中 专程 度 、 大 专程 度 。 

总 收入 按 收入 的 性 质 或 来 源 分 为 四 种 ， 工资 性 收入 、 家 庭 经 营 收 入 、 转 移 性 收入 和 
财产 性 收入 。 其 中 工资 性 收入 又 分 为 四 个 方面 : 在 非 企业 组 织 中 得 到 的 收入 、 在 本 地 企 
业 中 得 到 的 收入 、 常 住人 口外 出 从 业 得 到 的 收入 和 其 他 工资 性 收入 。 

数据 收集 如 下 表 所 示 。 

按 人 均 纯 收入 等 级 分 的 农村 居民 家 庭 基本 情况 


项 目 低 收入 户 о 2 中 低 收入 户 中 等 收入 户 АР ”高 收入 户 
平均 每 百 个 劳动 力 
的 文化 程度 (%) 
文 育 或 半 文 育 7.11 6. 42 3.68 3.51 3. 09 2. 24 
小 学 程度 34. 30 35.47 29.14 24. 99 20. 96 19.75 
初中 程度 49.01 48. 68 55. 28 56. 36 57.93 49. 85 
高 中 程度 7. 96 6.04 9. 20 11. 05 12. 54 17. 50 
中 专程 度 1. 13 2.64 2. 33 3. 28 3. 74 6. 72 
大 专程 度 0. 49 0.75 0. 37 0.81 1. 74 3. 94 
总 收入 (元 ) 
在 非 企业 组 织 中 得 42. 43 10. 06 73. 87 156. 25 227. 37 741. 94 
到 的 收入 
在 本 地 企业 中 得 到 173. 73 106. 61 257.72 322. 94 299, 17 1 297. 58 
的 收入 
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( 续 上 表 ) 
ГАР 

项 目 AP 。 个 s00 PERAR 中 等 收入 户 中 高 收入 户 高 收入 户 
常住 人 口外 出 从 业 306. 96 81. 27 940. 18 1 511.76 2484.98 2870.31 
得 到 的 收入 
其 他 工资 性 收入 317. 42 218. 18 358. 95 291.32 303. 71 475. 49 
家 庭 经 营 收 入 1820.59 1660.09 2069.17 2 244.54 2782.37 6479.68 
转移 性 收入 98. 14 61. 85 158. 30 239. 27 344. 35 661. 23 
财产 性 收入 20. 33 13. 99 32. 57 63. 95 119. 43 699. 20 


资料 来 源 :《 广 东 统计 年 鉴 2006》。 


试 运 用 对 应 分 析 的 方法 ， 分 析 不 同 的 文化 程度 和 不 同 的 收入 来 源 对 广东 省 农民 收入 
水 平 的 影响 密切 程度 。 
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【 目的 要 求 】 要 求 了 解 典 型 相关 分 析 的 目的 和 基本 统计 思想 ， 以 及 典型 相关 分 析 的 实 
际 意义 ; 了 解 计算 软件 程序 中 有 关 典 型 相关 分 析 的 基本 内 容 ; 能 运用 R 语言 进行 典型 相 
关 分 析 。 

【教学 内 容 】 典型 相关 分 析 的 目的 和 基本 思想 ; 典型 相关 分 析 的 数学 模型 ; 典型 相关 
系数 以 及 典型 变量 的 计算 ; 典型 相关 系数 的 假设 检验 。 


11.1 3 引 


n 


在 相关 分 析 中 ， 当 考察 的 一 组 变量 仅 有 两 个 时 ， 可 用 简单 相关 系数 衡量 之 ; 当 考 察 
的 一 组 变量 有 多 个 时 ， 可 用 复 相 关系 数 衡量 之 。 在 多 变量 线性 回归 中 ， 我 们 所 探讨 的 是 
一 组 解释 变量 与 一 个 反应 变量 之 间 的 关系 ， 然 而 在 经 济 管理 所 面临 的 复杂 研究 中 ， 经 党 
需要 找 出 一 个 以 上 的 反应 变量 与 一 组 解释 变量 的 关系 。 如 在 心理 测验 的 研究 中 ， 我 们 想 
知道 的 是 一 群 有 关 “ 个 性 ”的 解释 变量 及 一 群 有 关 受 测验 者 各 种 不 同 的 “能 力 ” 量 度 
(反应 变量 ) 之 间 的 关系 。 在 商业 与 经 济 方面 的 研究 中 ， 可 能 对 于 一 组 价格 指数 与 一 组 生 
产 指 数 感 兴趣 ， 并 且 想 从 其 中 一 组 变量 来 预测 另 一 组 变量 。 在 管理 问题 中 ， 也 经 常 需 要 
研究 两 组 变量 间 的 关系 。 例 如 ， 在 体育 训练 中 ， 考 察 运 动员 身体 的 各 项 指标 与 训练 成 绩 
之 间 的 关系 ; 在 工厂 里 ， 考 察 原材料 主要 质量 指标 与 产品 质量 指标 的 相关 性 等 。 用 于 探 
讨 一 组 解释 变量 ( 亦 即 预测 变量 ) 与 一 组 反应 变量 间 的 关系 即 是 典型 相关 分 析 ( canoni- 
cal correlation analysis) ， 上 典型 相关 分 析 可 以 说 是 复 相 关 分 析 的 延伸 。 

大 量 的 实际 问题 需要 我 们 把 指标 之 间 的 联系 扩展 到 两 组 随机 变量 之 间 的 相互 依赖 关 
系 。 典 型 相关 分 析 就 是 为 了 解决 此 类 问题 而 提出 的 一 种 多 变量 统计 分 析 方 法 。 它 实际 上 
是 利用 主 成 分 的 思想 来 讨论 两 组 随机 变量 的 相关 性 问题 ， 把 两 组 变量 间 的 相关 性 研究 化 
为 少数 几 对 变量 之 间 的 相关 性 研究 ， 而 且 这 少数 几 对 变量 之 间 又 是 不 相关 的 ， 以 此 来 达 
到 简化 复杂 相关 关系 的 目的 。 更 确切 地 说 ， 就 是 在 第 一 组 变量 中 找 出 一 个 变量 的 线性 组 
合 ， 在 第 二 组 变量 中 也 找 出 一 个 变量 的 线性 组 合 ， 使 它们 具有 最 大 的 相关 性 ， 还 可 继续 
在 每 一 组 中 找 出 第 二 个 线性 组 合 ， 使 其 在 与 第 一 个 线性 组 合 不 相关 的 线性 组 合 中 具有 最 
大 的 相关 。 如 此 继续 下 去 ， 可 将 两 组 变量 间 的 相关 提取 完毕 。 不 过 ， 在 实际 中 ， 希望 只 
提取 少数 几 对 就 能 反映 两 组 变量 之 间 的 相关 关系 。 
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11.2 ”典型 相关 分 析 的 基本 架构 


1. 简单 相关 分 析 


简单 相关 系数 r 


2. 多 变量 相关 分 析 


3， 典 型 相关 分 析 


EP y 
mn E 典型 相关 系数 CR E 


B - ч 一 


11.3 典型 相关 分 析 的 基本 原理 


1. 典型 相关 的 概念 

如 上 所 述 ， 典 型 相关 分 析 是 研究 两 组 变量 之 间 相 关 关 系 的 一 种 多 变量 统计 分 析 方 法 ， 
它 可 以 真正 反映 两 组 变量 之 间 相 互 依赖 的 线性 关系 。 设 两 组 变量 用 zx， 和 2，…, х Жу, 
Уз, Us y, 表示 ， 和 采用 类 似 主 成 分 分 析 的 做 法 ， 在 每 一 组 变量 中 选择 若干 个 有 代表 性 的 
综合 指标 〈 变 量 的 线性 组 合 ) ， 通 过 研究 两 组 的 综合 指标 之 间 的 关系 来 反映 两 组 变量 之 间 
的 相关 关系 。 其 基本 原理 是 : 首先 在 每 组 变量 中 找 出 变量 的 线性 组 合 ， 使 其 具有 最 大 相 
关 性 ， 然 后 在 每 组 变量 中 找 出 第 二 对 线性 组 合 ， 使 其 分 别 与 第 一 对 线性 组 合 不 相关 ， 而 
第 二 对 线性 组 合 本 身 具 有 最 大 的 相关 性 ， 如 此 继续 下 去 ， 直 到 两 组 变量 之 间 的 相关 性 被 
提取 完毕 。 

在 单 变量 复 相 关中 ， 有 Pp 个 x 变量 和 一 个 y 变量 ,分析 的 目的 在 于 找 出 适当 的 回归 
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系数 作为 这 p 个 x 变量 的 加 权 值 ， 使 p 个 x 变量 线性 组 合 分 数 与 这 一 个 y 变量 分 数 之 间 的 
相关 最 大 。 在 典型 相关 分 析 中 也 有 p 个 x 变量 , 但 是 y 变量 却 有 9 个 (9 > 1) 。 典 型 相关 
的 目的 在 于 找 出 这 p 个 x 变量 的 加 权 值 和 这 4 个 y 变量 的 加 权 值 ， 使 这 p 4 x 变量 线性 组 
合 分 数 与 这 g у 变量 线性 组 合 分 数 相关 程度 达到 最 大 。 

2. 典型 相关 的 求法 

假设 有 两 组 变量 ,一 组 变量 为 x = (x ,x,,…,x*,)'， 男 一 组 变量 为 y= (yy ,ya ，…， 
y), Hpsq. x B y 的 协 方差 阵 为 : 


E=) = (cml) TG) [ys 22) 


为 研究 变量 x 和 变量 y 之 间 的 线性 相关 关系 ， 可 考虑 它们 之 间 的 线性 组 合 : 
u=a,x, +a,x, t: +a x, =a'x 
|. =b,y, +b,y, + t b у, =b'y 
u 和? 的 方差 和 协 方 差分 别 为 : 
Var(u) = Var(a'x) =a'Var(x)a =а У, а 
Var(v) = Var(b'y) =b'Var(y)b -b'Y,,b 
Cov(u,v) = Cov(a'x,b'y) a'Cov(x,y)b =а' У, „b 
于 是 ， 两 个 新 变量 uw о 之 间 的 相关 系数 〈( 即 典型 相关 系数 ) 为 : 
а 2.130 
(a'Y,axb'Y,4b)'^ 
由 于 对 任意 常数 c 承 0， 有 Corr(ca'x,cb'y) = Corr(a'x,b'y) ， 所 以 通常 需 对 a I b 附 
加 约束 条 件 ， 使 其 唯一 ， 最 好 的 约束 条 件 是 : 
Var( u) = Var(a'x) 2a'X,a-21,Var(v) =Var(b'y) =b'y,b=1 
于 是 ,我 们 的 问题 就 变 成 在 上 述 约束 条 件 下 求 Mb, 118: 
p =Corr( u,v) = Corr(a'x,b'y) =а У, b 
达到 最 大 。 构 造 拉 格 朗 日 乘 数 法 函数 ; 


G=a'Yab- 4 (a Ena-1) - A Eb -1) 
两 边 分 别 对 向 量 a 和。 求 导 ， 并 令 其 为 0， 得 方程 组 : 
yb-AZua=0 


р =Corr( u,v) = Corr(a'x,b'y) = 


£- Za -从 之 2b=0 
以 和 几 分 别 左 乘 上 方程 两 式 得 : 
а У, ab=a 2, =À 
li zs ci Eu =н 
{Н(5'Ула)'=а'Уы&, BELA =u, HREM, A 恰好 就 是 wu ЯП» 的 相关 系数 。 
另外 ， 由 上 述 方程 组 的 第 二 式 得 5 =--Уш' оа = У Уа, ЖАКА 
第 一 式 得 Zu Da Ула -А Уа =0, ВЕЦ У ОЧУ Yuya Zaa-Aza=0， 同 
Яп У Ун Xua Lnb -AD=0, 记 4= 开 1 У, Za Xa. B= X> Xn Èn Èn, 
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则 得 : 
Aa = A'a 
m =Ab 

说 明和 A 既是 4 的 特征 根 又 是 B ARIER, а, b 是 其 相应 的 特征 向 量 ， 于 是 求 A 和 
a, tb 的 问题 就 转化 为 求 和 矩阵 4 和 B 的 特征 根 和 特征 向 其 的 问题 。 

Ut A 的 p 个 特征 根 为 A ，A2，…，As， 则 称 A, 宇和, 宇 …A, 20 为 典型 相关 系数 ， 相 
应 的 特征 向 量 为 a/ а, +", а, 和 6b,，b,，…，b,， 从 而 可 得 p 对 线性 组 合 ; 

U; =la% +a>x, t +a,x, = aix 
|, = Блу +bayı + 二 boy = bí y 

1i=1，2，…，Pp， 每 一 对 变量 称 为 典型 变量 。 

3. 典型 变量 的 性 质 

(1) 每 一 对 典型 变量 u, 及 vi(i=1,2,…,p) 的 标准 差 为 1。 

(2) 任意 两 个 典型 变量 u,(i=1,2,…,p) 彼 此 不 相关 ， 任 意 两 个 典型 变量 v, (1=1,2, 
… ,Pp) 彼 此 不 相关 ， 且 当 97 BF, и, 及 vw 也 彼此 不 相关 。 

(3) 各 典型 变量 u 及 的 相关 系数 为 A;(i=1,2,…,p)， 典 型 相关 系数 满足 关系 式 
12А 22,2 --А, >20, 

在 理论 上 ， 典 型 变量 的 对 数 和 相对 应 的 典型 相关 系数 的 个 数 可 以 等 于 两 组 变量 中 数 
目 较 少 的 那 一 组 变量 的 个 数 ， 其 中 , и, 及 的 相关 系数 A, 反映 的 相关 成 分 最 多 ， 所 以 
称 为 第 一 对 典型 变量 ; u, 及 o, 的 相关 系数 А, 反映 的 相关 成 分 次 之 ， 所 以 称 为 第 二 对 典 
型 变量 ; 以 此 类 推 。 在 应 用 上 ， 只 保留 前 面 几 对 典型 变量 ， 确 定 保留 对 数 的 方法 为 ; 
(对 典型 相关 系数 作 显 著 性 检验 ， 看 显著 性 检验 的 结果 ; @ 结 合 应 用 ， 看 典型 变量 和 典 
型 相关 系数 的 实际 解释 ， 通 常 所 求 得 的 典型 变量 的 对 数 愈 少 愈 容易 解释 ， 最 好 是 第 一 对 
典型 变量 就 能 反映 足够 多 的 相关 成 分 ， 只 保留 一 对 典型 变量 便 比较 理想 。 透 过 典型 变量 
之 间 的 典型 相关 系数 来 综合 地 描述 两 组 变量 的 线性 相关 关系 并 进行 检验 和 分 析 的 方法 ， 
称 为 典型 相关 分 析 。 

典型 相关 的 平方 表示 此 两 组 变量 的 典型 变量 问 享有 的 共同 变异 的 百分比 ， 如 果 将 它 
乘 以 典型 变量 对 该 组 变量 解释 变异 的 比例 ， 即 为 重 迭 系数 ， 它 表示 一 组 的 变量 被 对 方 的 
典型 变量 解释 的 平均 百分比 。 

在 实际 例子 中 一 般 并 不 知道 二， 因此 在 只 有 样本 数据 的 情况 下 ， 只 要 把 二 用 样本 协 
方差 阵 代替 就 行 了 。 但 是 这 时 的 特征 根 可 能 不 在 0 和 1 的 范围 内 ， 因 此 会 出 现 软件 输出 
中 的 特征 根 (比如 远 远 大 于 1) 不 等 于 相关 系数 的 平方 的 情况 ， 这 时 ， 各 种 软件 会 给 出 
调整 后 的 相关 系数 。 大 多 数 情况 下 ， 我 们 在 进行 典型 相关 分 析 时 ， 需 将 数据 标准 化 ， 这 
时 样本 协 方差 阵 即 为 样本 相关 阵 ， 就 不 会 出 现 这 种 情况 。 


11.4 ”典型 相关 系数 的 显著 性 检验 


确定 典型 变量 之 显著 性 检验 ， 可 求 出 “去 掉 前 个 典型 相关 系数 的 影响 ”之 后 所 剩 
的 (p -上 ) 个 典型 相关 系数 是 否 可 达到 显著 性 水 平 ， 所 计算 的 x 值 若 大 于 x [Op - r1) 
(g -r+1)]， 便 要 拒绝 典型 相关 为 0 的 假设 。 以 下 为 典型 相关 系数 和 的 显著 性 检验 。 
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检验 假设 Ho: À, =0 
检验 第 r 个 (r <k) 典 型 相关 系数 的 显著 性 时 ， 作 统计 量 : 


0s -[n-r -5 (P +9+1) 1А, , ~L [(p-r+1)(q-r+1)] 
其 中 ， A, -(1 -AD( -Ara 01 - А») = П.,(1 - А) 


11.5 典型 相关 系数 及 变量 的 计算 


设 所 观测 对 象 来 自 正 态 总 体 的 样本 ， 每 个 样品 测量 两 组 指标 ， 分 别 记 为 x = (xi ,xz， 
eA) s YEY Y2) ， 不 妨 设 p<g， 原 始 资料 矩阵 为 : 


Xy X `°” Xp Yu Yn CU Yu 
X Xp ` X Yn Yn CU Yu 
ACIE. уз D. e €» d ox X 0o 3 
Xa Xo | Zap Ym Yo UU Ум 
(1) 计算 相关 系数 阵 R,. HH R 剖 分 为 : 
-| К, 
(Ra R. 


其 中 ，R,, 、R;y, 分 别 为 第 一 组 变量 和 第 二 组 变量 的 相关 系数 阵 ，R,,、R,，(R,, = К) 
为 第 一 组 变量 与 第 二 组 变量 的 相关 系数 阵 。 
(2) 计算 典型 相关 系数 及 典型 变量 。 
首先 求 4 = Ку, Ra 的 特征 根 т >r тл" > 5 >0, ЖЖ Гү, г), 77, Гр 对 应 的 特征 
iE а,, а,, ---, а,; PPR B = Rb RaRa К,, ВЕЙ si >s >… >з, 250, HRs, з, + 
s, 对 应 的 特征 向 量 bi, bo, s, bp, } т =si。 
и, =аүх, vj =biy 


_ ' ca t 
u, —à5X, V = у 


u, =а,х, v, =b;y 
其 中 ，a 和 “分 别 为 变量 x ЖП у 的 典型 载荷 。 
(4) 对 典型 相关 系数 进行 假设 检验 ， 以 确定 相关 系数 的 个 数 。 
(5) 根据 典型 相关 系数 对 资料 进行 典型 相关 分 析 。 
【 例 11 -1】 某 健康 俱乐部 对 20 名 中 年 人 测量 了 三 个 生理 指标 : 体重 (x, ) ЖЫ 
(x,) 和 脉搏 (x); 同时 也 测量 了 三 个 训练 指标 : 引 体 向 上 次 数 (y, ) 、 起 坐 次 数 (у,) 
和 跳 牙 次 数 〈》 ) 。 数 据 如 表 11 - 1， 试 作 生 理 指标 和 训练 指标 之 间 的 典型 相关 分 析 。 
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表 11-1 20 名 中 年 人 的 生理 指标 和 训练 指标 


X x, з i J У Уз 
1 191 36 50 ' 162 60 
2 189 3 52 : 2 H0 60 
з 193 38 58 i 12 юш 101 
4 16 35 62 i 12 10 3 
5 189 35 4 | 13 155 58 
6 182 36 56 : 4 101 4 
7 2n 38 56 | 101 38 
8 16 34 60 : 6 125 40 
9 16 3 74 | 15 20 40 
10 154 33 56 ; 17 251 250 
I 19 — 34 S0 i 17 120 · 38 
12 166 — 33 32 ! D 20 ms 
13 154 34 64 i 14 215 105 
14 247 46 50 | l 50 50 
15 193 36 46 | 6 70 31 
16 202 37 6 | 1 20 12 
17 176 37 54 i 4 60 25 
18 157 32 52 i 11 230 80 
19 156 33 54 | 15 25 7 
20 138 — 33 в | 2 по аз 


分 析 步 又: 首先 通过 编程 方式 演示 如 何 确定 典型 相关 系数 。 
Ra R,, | 
(1) 计算 相关 系数 矩阵 : R= | ， 。 | ， 下 面 是 各 分 块 矩阵 的 值 。 


De ee ee н в а н н р 0 н т 0 Н н н н н и и и и н н н н и н н н н и р 


і > X = read. table( " clipboard" , header = T) 


| 
|» R =cor(X) # 相 关系 数 矩 阵 
xl х2 х3 yl y2 y3 
; xl 1000 0.870 -0.3658 -0.390  -0.493  -0.2263 
! x2 0.870 1.000 -0.3529 -0.552  -0.646 -0.1915 
: x3 -0.366 -0.353 1.0000 0.151 0.225 0.0349 
; yl-0.390 -0.552 0.1506 1.000 0.696 0. 4958 
|! y2-0.493 -0.646 0.2250 0.696 1.000 0.6692 i 
: y3_—0.226__ -0.191 0.0349 0.496 0.669 1.0000 


* . - - - -- = т єт е ът == =з т -. ттт тш тє т ч тт т от - т т =т= ш ш шш точ тт т т тт ш ш шш ш ош чш ш ош шш ш ош шш ш ш шш ш ош -.. шш ш ош шш ш ж шш ш ш шш ш ш шш ж ш шш ж ож шш ш ж шш ш ж .-......-..-.-.......-... 


其 中 ，R ZR[E3,E3],R; =R[1:3,4:6],R, =R[4:6,1:3],R, = R[4:6,4:6]。 
(2) R Ri' Ri Rz! Ra 的 特征 值 和 典型 相关 系数 : 分 别 为 0.633 0, 0.040 2 和 
0.005 3 ， 开 方 得 相应 的 典型 相关 系数 : r =0. 796 5, г, 20.200 6, r, =0.072 6, 
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omm momo Romo ooo mA ———————————— m 


' > ev =eigen(A)$values # 特 征 值 i 
! [1]0.63299 0.04022 0.00527 | 
|> sqrt( ev) # 典 型 相关 系数 ' 


ale 


(3) 典型 相关 系数 检验 ， 确定 典型 变量 。 
典型 相关 分 析 哺 数 cancor( ) 的 用 法 


cancor( x,y,xcenter =TRUE, ycenter = TRUE) 
x 为 第 一 组 变量 数值 矩阵 

y 为 第 二 组 变量 数值 矩阵 

xcenter 表示 第 一 组 变量 是 否 中 心 化 

ycenter 表示 第 二 组 变量 是 否 中 心 化 


下 面 用 典型 相关 晴 数 进行 简单 分 析 : 

:>xy=scale(X) ЖЕМ | 
i > са = сапсог( xy[ ,1:3],xy[ ,4:6]) # 典 型 相关 分 析 i 
! > ca$cor # 典 型 相关 系数 ' 
; [1] 0.79561 0.20056 0.07257 : 
: » ca$ xcoef #х 的 典型 载荷 | 
| [.1] [ ,2] 1,3] | 
: xl — -0.17789 -0.43230 0. 04381 : 
i x2 0.36233 0.27086 -0.11609 | 
: x3 -0.01356 -0.05302 -0.24107 | 
|» ca$ ycoef ву 的 典型 载荷 
| [.1] [2) [мз] | 
; yl -0.08018 -0. 08616 0. 29746 
| y2 0. 24181 0.02833 –0. 28374 ' 
' уЗ 0.16436 0. 24368 0. 09608 : 


| 


注意 ， 由 于 对 于 任意 常数 c 关 0， 有 Corr(ca'x,cb'y) = Corr(a'x,b'y) ， 所 以 典型 变量 
ШЖ (Жї) 并 不 唯一 ， 只 要 是 它 的 任意 倍数 即 可 ， 所 以 每 个 软件 得 出 的 结果 并 不 一 
KE, ， 而 是 相差 一 个 倍数 。 

R 自 带 的 典型 分 析 果 数 cancor( ) 并 不 包括 对 典型 相关 系数 的 假设 检验 ， 为 了 分 析 方 
Е, 我 们 自 编 了 典型 相关 检验 隧 数 cancor test( ) 来 进行 典型 相关 分 析 。 


自 编 典 型 相关 晴 数 cancor. test( ) 的 用 法 


cancor. test < — function( x , y , plot = F) # 包 含 对 典型 相关 系数 的 检验 


x 为 第 一 组 变量 数值 矩阵 
y 为 第 二 组 变量 数值 矩阵 
plot 为 是 否 绘制 典型 相关 图 


dria iila ed at ron ely TER Co Op сна 4 пн аат аана cri ice онан Calc a www окалан аа лара 


cancor test ; 


! $ cor | 
Po MER | 
: $ xcoef ; 
| [,1] [ ,2] [ ,3] 
' xl -0.17789 -0.43230 0. 04381 i 
: 2 0.36233 0.27086 -0.11609 | 
i x3 -0.01356 -0.05302 -0.24107 | 
! $ ycoef ! 
[ ,1] [ ,2] [ ,3] 
| yl -0.08018 -0.08616 0. 29746 : 
i y  -0.24181 0.02833 -0. 28374 
: ya 0.16436 0.24368 0. 09608 | 
|. $ xcenter 
i xl 2 x3 
! -5.55le-18 — -1.943e-17 — 1.821e-17 
$ ycenter | 
i yl y2 y3 | 
i -2.776e-17 3. 331е - 17 3. 365e - 17 | 
r Q P | 

(1,] 0.79561 16.25496 0. 06174 : 
[2,] 0.200586 0.67185 0. 95475 ' 
[3,] 0. 07257 0.07128 0. 78948 
ч 


0.2 


vl 
0.0 


-0.4 -0.2 


b 
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经 检验 不 拒绝 原 假设 ， 也 即 认为 在 a =0. 05 水 平 上 没有 一 个 典型 相关 是 显著 的 。 从 
典型 相关 图 上 也 可 以 看 出 效果 不 是 很 理想 ， 所 以 就 不 需要 作 进 一 步 的 典型 相关 分 析 了 。 

【 例 11 -2】 广 东 省 能 源 消费 量 与 经 济 增长 之 间 的 典型 相关 分 析 。 

一 个 地 区 在 一 定时 期 内 的 能 源 消费 量 与 经 济 增长 存在 很 大 的 相关 性 。 一 定时 期 的 能 
源 消 费 量 的 多 少 ， 可 以 很 大 程度 上 反映 经 济 增长 的 快慢 ， 一 般 情 况 下 可 以 对 两 者 进行 回 
归 分 析 、 主 成 分 分 析 或 因子 分 析 。 但 是 如 果 深 入 地 考察 此 问题 ， 可 以 发 现 ， 评 价 能 源 消 
费 量 的 指标 很 多 ， 如 原煤 消费 量 、 电 力 消费 量 等 ; 评价 经 济 增长 的 指标 也 有 很 多 ， 如 农 
业 增 长 、 工 业 增 长 、 服 务 业 增长 ， 而 且 国 民 经 济 各 个 行业 对 能 源 的 依赖 程度 有 所 不 同 。 


11 典型 相关 分 析 及 只 使 用 cpm 
这 时 涉及 一 组 变量 对 另 一 组 变量 的 相关 性 研究 ， 若 用 上 面 的 方法 就 不 能 解决 。 本 例 利用 
了 典型 相关 分 析 的 方法 来 解决 此 问题 ， 目 的 是 希望 找 出 能 源 消费 量 和 经 济 增长 之 间 深 层 
次 的 关系 ， 为 决策 者 提供 一 点 借鉴 。 

(1) 指标 选取 与 资料 收集 。 

能 源 消 费 量 是 指 一 个 地 区 在 一 定时 期 内 消费 的 能 源 的 总 量 。 能 源 具 体 可 分 为 原煤 、 
油 品 〈 包 括 汽油 、 煤 油 、 柴 油 等 ) 、 电 力 等 方面 。 为 了 能 具体 分 析 能 源 消费 量 的 变动 情 
况 ， 收 集 了 以 下 四 个 指标 作为 第 一 组 变量 : 

x,: 原煤 消费 量 (万 吨 标 准 煤 ) x: 油 品 消费 量 (万 吨 标准 煤 ) 

ху: 电力 消费 量 (折算 成 万 吨 标准 煤 ) x: 进口 能 源 量 〈 万 吨 标准 煤 ) 

经 济 增长 反映 了 一 个 地 区 在 一 定时 期 内 的 经 济 发 展 情况 。 为 了 从 各 个 方面 全 面 评 价 
经 济 增长 ， 特 别 收集 了 以 下 六 个 指标 : 

yv: 农业 生产 总 值 〈 亿 元 ) 

y: 建筑 业 生产 总 值 〈 亿 元 ) 

ys: 全 省 户籍 人 口 (万 人 ) 


у: 工业 生产 总 值 〈 亿 元 ) 
y: 第 二 产业 生产 总 值 ( 亿 元 ) 
ys: 人 均 可 支配 收入 (元 ) 


表 11 -2 能 源 消费 量 与 经 济 增长 指标 数据 

年 份 | x х, x, s Í y Y, y, 7 ys Ys 

1984 | 867.70 483.52 662.35 30.00 : 145.25 154.33 33.22 125.93 5576.62 818.37 
1985| 955.20 531.74 70016 30.03 : 171.87 185.81 4401 175.69 5655.60 954.12 
1986| 1019.30 624.53 797.59 231.83 : 188.37 208.46 47.42 223.28 5740.70 1102.09 
1987 | 1 144.40 678.17 944.60 175.46 : 232.14 273.77 56.58 284.20 5832.15 1 320.89 
1988 | 1 451.10 756.01 1017.60 165.54 ' 306.50 386.35 73.82 388.70 5928.31 1583.13 
1989 | 1 575.20 893.28 1112.60 375.61 : 351.73 464.06 90.07 475.53 6024.98 2086.21 
1990 | 1 326.00 919.61 1313.70 474.80 ! 384.59 523.42 92.45 558.58 6246.32 2 303.15 
1991 | 1 459.20 1 055.70 1 515.50 517.89 ' 416.00 675.55 107.12 694.63 6348.95 2752.18 
1992 | 1 535.90 1149.40 1 817.00 1046.30 465.83 899.28 201.04 881.39 6463.17 3476.70 
1993 | 1 693. 80 1 173.90 2 174.50 1 779.90 : 558.70 1 386.83 318.05 1205.70 6581.60 4632.38 
1994 | 1 749. 50 1 328.30 2 630.80 1 605.20 : 692.25 1 865.44 387.80 1673.52 6691.46 6367.08 
1995 | 1 906. 80 1 476.00 2 803.70 1 575.50 ; 864.49 2448.82 451.40 2168.34 6788.74 7 438.68 
1996 | 1 804. 40 1 506.20 3072.00 2 354.60 : 935.24 2842.85 464.66 2592.22 6896.77 8157.81 
1997 | 1 756.30 1 472.60 3 090.80 3 064.60 : 978.32 3235.42 468.97 3091.81 7013.73 8561.71 
1998 | 1 681.30 1 737.90 3 273.80 2 954.20 : 994.55 3 564.25 502.87 3469.21 7115.65 8839.68 
1999 | 1 541.80 1 912. 50 3 454.30 2 668.30 11 009.01 3 832.44 526.56 3882.66 7 298.88 9 125.92 
2000 | 1 552. 70 2 052. 10 4 122.40 2757.40 : 986.32 4 463.06 536.45 4755.42 7 498.54 9 761.57 
2001 | 1 554.30 2 209.20 4 506.30 3 662.60 : 988.84 4 941.20 564.86 5 544.35 7 565.33 10415. 19 
2002 | 1 574.94 2 346.12 5 343.95 4211.20 Ч 015.08 5 548.41 594.99 6343.94 7649.29 11 137.20 
2003 | 2 209. 78 2 805.67 5 524.44 4741.71 1 072.91 6886.97 705.81 7178.94 7723.42 12 380. 40 
2004 | 1 695.07 2 998.96 7 620.55 5 324.97 11 219.84 8485.85 794.88 8 364.05 7 804.75 13 627.65 
2005 | 1 986. 22 4 076.07 8 635.75 4 587.62 ;1 428.27 10 482.03 857.90 9 598.34 7 899.64 14 769.94 
2006 | 2 344.21 4 555.01 9 243.42 5 038.17 ;1 532. 17 12 500.22 931.60 11 195.53 8 048.71 16 015. 58 
2007 | 2 579. 46 4 757. 19 10 275. 54 5 292.14 11 695. 57 14 910.03 1 029.07 13 449.73 8 156.05 17 699.30 
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> dll. 2 = read. table( " clipboard" , header = Т) 
> library ( mvstats ) 
> cancor. test( d11. 2[ ,1:4],d11. 2[5:10] , plot = T) 


зла —— Prop y Pr PM maa Jc TIT 


$cor 


[1] 0. 998 0. 900 0. 650 0. 416 


$xcoef 
[.1] [ ,2] [ ,3] [ ,4] 
х1 0. 00493 - 0. 0621 0. 383 - 0. 130 
х2 0. 09666 0.3222 -0.321 1. 886 
х3 0. 05221 0. 2409 0. 180 — 2. 121 
х4 0. 05914 -0.5281 -0.189 0. 364 
$ycoef 
[st] [ ,2] |52] [ ,4] [ ,5] 
yl -0.01144 0.0719 2. 242 0. 194 – 0. 629 
у2 0.04303 1. 6862 - 2. 984 1. 460 2. 506 
y3 0.03286 -0. 0960 1. 304 - ]. 096 2. 268 
y4 0.09418 - 1. 0383 3. 217 - 1. 225 - 2. 360 
y5 0.06238 0.1522 ~ 0. 153 1. 130 0. 324 
y6 – 0. 00702 -0.7725 ~ 3. 573 ~ 0. 430 – 2. 092 
$ xcenter 
xl x2 x4 
—4. 63e - 17 -3.87e-17 5. 90е – 17 1. 59е - 17 
$ усепіег 
yl y2 y3 y4 | у5 
1.73e-17. 1. 45е-17  6.07e-17 2. 49е – 17 - 1. 86e - 16 
cancor test : 
r Q P 
[1,] 0. 998 140. 39 0. 000000 
[2..] 0. 900 39. 57 0. 000527 
[3, ] 0. 650 11. 48 0. 176017 
[4,] 0. 416 2. 76 0. 429726 
H Pa 
引 
引 


[,6] 


- 0. 302 
2.222 
- 2. 607 
- 2. 854 
- 0. 708 
4. 197 


y6 


- 1. 01e - 17 


经 检验 在 0. 05 水 平 上 ， 有 三 个 典型 相关 是 显著 的 ， 即 需要 三 个 典型 变量 ， 于 是 可 得 
出 前 三 对 典型 变量 的 线性 组 合 是 : 


А 


=0. 004 39x, +0. 096 66x, +0. 052 21x, +0. 059 14x, 
= -0.001 114 4y, +0. 043 03y, +0. 032 86y, +0. 094 18y, +0. 062 38y, 


— 0. 007 02y, 


ll 典型 相关 分 析 及 R 使 用 Spez 


u, = 一 0. 621x, +0. 322 2x, +0. 240 9x, - 0. 189 Ох, 

|, =0. 071 9y, + 1. 686 2y, - 0. 096 Oy, - 1. 038 Зу, +0. 152 2y, -0. 772 5y, 

(3) 对 结果 进行 经 济 意义 的 解释 。 

1) H+r,=0.998, 说 明 u, v, 之 间 具 有 高 度 的 相关 关系 〈 尤 其 是 绝对 值 较 大 的 权 
系数 ) ， 而 各 自 的 线性 组 合 中 变量 的 系数 大 部 分 都 为 正 号 ， 因 此 一 般 说 来 ， 能 源 消费 越 
多 ， 经 济 增长 也 就 越 快 。 | 

2) 在 第 一 对 典型 变量 u, 、v, tF, ш 为 能 源 消费 指标 的 线性 组 合 ， 其 中 x, 〈 油 品 消 
ЎШ), х, (电力 消费 量 ) х, (进口 能 源 量 ) 较 其 他 变量 有 较 大 的 载 集 ， 说 明 油 品 、 
电力 是 能 源 消费 量 的 主要 指标 ， 它 们 在 能 源 消费 中 占 主导 地 位 。x( 进口 能 源 量 ) BR x, 
(原煤 消费 量 ) 有 较 大 的 载荷 ， 说 明 随 着 经 济 的 逐渐 发 展 ， 本 地 的 能 源 逐 渐 不 能 满足 经 济 
发 展 的 需要 ， 进 口 能 源 逐 渐 显示 其 重要 性 。v 是 对 经 济 增长 有 影响 的 各 种 指标 的 线性 组 
合 ， 其 中 有 较 大 载荷 的 变量 是 y,，( 工业 生产 总 值 )、y。( 第 三 产业 生产 总 值 ) K y, (全 
省 户籍 人 口 ) 。 这 说 明 x。( 油 品 消费 量 )、x，( 电 力 消费 量 ) Aa CEOE) Ууу, 
(工业 生产 总 值 )、y。( 第 三 产业 生产 总 值 ) Жу, (全 省 户籍 人 口 ) 有 较为 密切 的 联系 。 
以 油 品 和 电力 为 代表 的 能 源 消费 对 经 济 的 促进 作用 主要 体现 在 工业 和 第 三 产业 的 增长 上 。 
换 句 话说 ， 如 果 要 想 保持 经 济 (尤其 是 工业 和 第 三 产业 ) 的 快速 增长 ， 那 么 油 品 和 电力 
必须 有 充足 的 供应 ， 进 口 能 源 也 不 可 轻视 ， 不 然 就 会 成 为 制约 经 济 增长 的 瓶颈 。 

3) 在 第 二 对 典型 变量 中 ， 能 源 消 费 指标 的 线性 组 合 方面 ， 仍 以 x*，( 油 品 消费 量 ) 
Tix, (电力 消费 量 ) 较 其 他 变量 有 较 大 的 载 何 ， 说 明 油 品 、 电 力 是 能 源 消费 量 的 主要 指 
标 ， 它 们 在 能 源 消费 中 占 主导 地 位 。 而 在 经 济 增长 各 项 指标 的 线性 组 合 中 ,又 以 y,( 工 
业 生 产 总 值 ) 、y。( 第 三 产业 生产 总 值 ) 的 载 丛 最 大 ， 再 次 说 明 第 三 产业 对 能 源 也 有 较 大 
的 依赖 性 ， 并 再 一 次 显示 了 工业 对 能 源 的 高 度 依赖 。 

4) 从 上 面 两 对 典型 变量 中 ， 我 们 可 以 看 出 ， 在 能 源 消费 这 一 方面 ， 原 煤 所 起 的 作用 
已 经 不 那么 重要 了 。 事 实 上 ， 从 原始 数据 ， 我们 也 可 以 看 出 ， 随 着 经 济 的 快速 增长 ， 原 
煤 消费 量 的 增长 已 很 缓慢 。 而 在 经 济 增长 这 一 方面 ， 农 业 生 产 总 值 、 建 筑 业 生产 总 值 、 
人 口 的 载荷 都 不 是 很 大 ， 这 说 明 这 两 个 指标 的 增长 与 能 源 的 消费 没有 太 大 关系 。 这 一 点 
也 很 容易 理解 ， 因 为 在 实际 生活 中 ,我 们 往往 会 发 现 ， 农 业 的 发 展 并 不 会 消耗 太 多 的 能 
源 ， 并 且 ， 这 些 年 来 广东 省 的 农业 发 展 并 不 快 ， 所 以 和 能 源 的 关系 并 不 太 大 。 建 筑 业 的 
增长 也 不 会 消耗 太 多 能 源 。 

5) 将 原始 数据 代 人 第 一 对 典型 变量 中 ， 可 得 到 典型 变量 и, о 的 得 分 ， 根 据 每 一 
年 的 得 分 ， 可 画 出 得 分 平面 等 值 图 ， 如 上 疼 所 示 。 

从 得 分 等 值 平 面 图 上 可 以 很 清楚 地 看 出 ， 散 点 在 一 条 近似 的 直线 上 分 布 ， 两 者 之 间 
呈 线 性 相关 关系 。 这 说 明 用 典型 相关 分 析 的 方法 能 较 好 地 说 明 能 源 消费 与 经 济 增 长 之 间 
的 相关 关系 。 散 点 图 上 几乎 没有 离开 群体 的 差异 点 ， 这 表明 能 源 消 费 量 和 经 济 增长 之 间 
的 关系 很 稳定 ， 波 动 也 非常 平稳 。 


案例 分 析 : 农村 居民 收入 和 支出 的 典型 相关 分 析 及 R 操作 


“三 农 ” 问 题 在 近年 来 一 直 备 受 关 注 ， 每 年 的 “两 会 ”都 对 妥善 地 解决 三 农 问 题 提 
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出 了 相应 的 对 策 。 而 农民 的 增收 问题 一 直 又 是 “三 农 ” 问 题 的 中 心 议题 之 一 。 因 此 ， 提 
高 农民 的 收入 对 于 解决 “三 农 ” 问 题 来 说 是 重 中 之 重 。 本 文通 过 对 2005 年 我 国 31 个 省 、 
市 、 自 治 区 的 农村 居民 收入 及 支出 作 典 型 相关 分 析 ， 了 解 我 国 各 省 区 农村 居民 的 收入 与 
支出 之 间 的 结构 关系 及 相关 状况 ， 硕 望 能 对 解决 农民 的 增收 问题 提供 一 些 思 路 与 帮助 。 

一 、 指 标的 选取 及 数据 搜集 

选取 4 个 反映 农村 居民 收入 的 变量 ，” : 工资 性 收入 (元); x: 家 庭 经 营 收入 
(20); x3: 财产 性 收入 〈 元 ); x4: 转移 性 收入 《元 ) 。 

选取 5 个 反映 农村 居民 支出 的 变量 ，y : 生活 消费 (20); vi: 家 庭 经 营 支 出 〈 元 ) ; 
y: 购置 生产 性 固定 资产 的 支出 〈 元 ); y: 财产 性 支出 (元 ) ;ys : 转移 性 支出 (元 )。 

工资 性 收入 是 指 农村 住户 成 员 受 雇 于 单位 或 个 人 ， 徘 出 卖 劳动 力 而 获得 的 收入 ， 常 
住人 口外 出 务工 收入 和 从 其 他 单位 劳动 得 到 的 收入 。 

家 庭 经 营 收入 指 农村 住户 以 家 尾 为 生产 经 营 单位 进行 农 、 林 、 牧 、 渔 等 生产 筹划 和 
管理 而 获得 的 收入 。 

财产 性 收入 包括 利息 、 股 息 、 租 金 、 红 利 、 土 地 征用 补偿 等 。 

转移 性 收入 主要 指 农民 从 国家 或 集体 所 获得 的 补贴 ， 如 农村 养老 基金 、 农 村 医疗 社 
会 救济 和 保险 补偿 等 。 

生活 消费 包括 衣着 、 食 品 、 家 庭 设备 、 交 通通 信 、 教 育 、 医 疗 保健 等 各 项 日常 生活 
消费 支出 。 

家 庭 经 营 支 出 指 农 村 家 尾 在 进行 农 、 林 、 牧 、 渔 等 自主 经 营 活 动 时 所 需 成 本 。 

购置 生产 性 固定 资产 的 支出 指 购买 农村 住户 用 于 建造 和 购置 生产 性 固定 资产 所 支出 
的 费用 。 

财产 性 支出 在 农村 主要 体现 在 承包 其 他 农户 转让 的 土地 上 的 支出 。 

转移 性 支出 包括 对 父母 的 购 养 支出 、 保 险 费 用 及 公益 性 支出 等 。 


š + ` 
K DE. t B: CR I ! £ [T ZT L 
x2 x4 Y3 好 ї5 
4. 3203. 01 538, 04 540. 30 5315, 1268, 61 82.18 9. 42 437.00 
20. 4455. 45 1 130. 52 1624.18 60.91 1.51 199 31 
293. 3418. 40 93. 74 83. 32 2168. T 12 96. 29 13. 29 167. 99 
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28 786.71 2071. 09 86. 92 152. 23 1896. 48 858. 5 40. 66 7.23 200. 51 | 1 
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二 、R 语言 操作 
1. 调 入 数据 


选中 casell 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 casell = read. table( " clipboard" , 


header =T) 。 
2. 计算 过 程 及 结果 分 析 


4 在 Rcode xis RM casei: ERR EE 
| casellivread.table("clipboard",heasder»T) 


Үг Y3 Y4 YS 1 
= =T = - 1" „~ - .074e-17 
1.198e-1? -3.618e-17 2.492e-1 2.6896e-18 4.074е-1 caecancor (£1,1:4), 2(,5:9]) ;ca 
3) 


| " tat 
> library ts Icancor.test (21,1:4], 21, 5:9], plot*T) 


| ra vstats) 
> cabcor.test (£[,1:4]1.2[,5:9], ploóot=T) 


$cor 
| [1] 0.9998 0,9444 0.7180 0.3368 


| $xcoet 
| [I 1,2] 1,3) 1.4) 
X1 -0.1245159 0.02876 0.37734 -0.03335 
X2 -0.0007625 -0.17720 0.04587 -0.04958 
X3 0.0150874 -0.02925 -0.14036 0.29942 
X4 -0,0776304 -0.02157 -0.2€841 -0.22296 


$усоеќ 

1,1] 1,2) 1,3) 1,4) 1,9) 
Y1 -0,146918 -0.03959 0.06015 0.36285 -0.11549 
Y2 0.019901 -0.17833 2.18135 -0.07158 -0.03791 
ҮЗ 0.005325 0.02131 -0.15763 0.16544 -0.28133 
Y4 0.020690 -0.03531 -0.08336 0.04816 0.299318 
YS -0.043891 0.03534 -0.09252 -0.39996 0.05489 


$xcenter 
x2 xài х4 
-1.903e-17 -2.227е-17 -4.141e-18 1.243е-17 
$ycenter 
v2 Y3 v4 y5 
-9.B49e-18 -1.952e-17 2.152e-17 -2.606e-18 1.746e-17 
cancor test: 
I! f Q 
[1,] 0.9898 174.077 0.000е+00 
(2,] 0.9444 73.660 €6£.S78e-11 


| [3.] 0.7180 19.438 3.485e-23 
| (4,] 0.3368 2.649 2.660e-01 
| >| 


由 R 语言 得 出 四 对 典型 相关 变量 的 相关 系数 R， 依 次 分 别 为 0.99，0.944，0.718， 
0. 337。 前 两 对 典型 变量 的 相关 系数 较 大 。 经 过 卡 方 检验 ， 可 知 前 三 对 典型 变量 的 相关 关 


系 是 显著 的 ， 即 通过 检验 。 因 此 我 们 只 需 分 析 前 三 对 典型 相关 变量 。 


根据 R 软件 分 析 得 出 的 特征 根 及 相应 的 单位 正 交 化 的 特征 变量 ， 可 得 出 前 三 对 典型 


变量 的 线性 组 合 如 下 : 
u, = -0.1245x -0. 00076x, +0. 0151x, -0. 0776x, 
v, = -0.1469y, +0. 0199y, +0. 00532y, +0. 02069y, — 0. 04389y, 


и, = 0.02876x, - 0. 1772x, - 0. 02925x, –0. 02157x, 


о, = -0.03959y, -0. 17833y, +0. 02131y, - 0. 03531y, — 0. 03534y, 


u, = 0. 37734x, +0. 04587x, — 0. 14036x, — 0. 26841x, 
v, = 0. 06015y, +0. 18335y, —0. 15763y, — 0. 08336y, — 0. 09252y, 


3. 对 结果 进行 分 析 


(1) 从 两 组 变量 的 组 间 相 关 阵 可 以 看 出 ,我 国 农 村 居民 的 各 项 收入 与 各 支出 的 相关 
系数 大 部 分 都 是 正 的 ， 这 表明 在 总 体 上 农村 居民 的 收入 增加 ， 支 出 也 会 增加 ， 二 者 呈正 
相关 关系 。 其 中 ， 工 资 性 收入 (x ) 与 生活 消费 (у), 转移 性 收入 (x%s) 与 生活 消费 
(y) 及 家 庭 经 营 收入 (x,) 与 家 庭 经 营 支 出 (y,) 的 相关 系数 分 别 达到 了 0.95, 0.92 


和 0. 926 。 


262 лазіна 


(2) 由 于 m 20.99, r, 20.944, r, =0.718. Хи, u HL us, v, Ж и,, n 8] y 3 
有 较 高 的 相关 性 ，m 和 靖 尤 为 明显 。 

(3) 在 第 一 组 典型 变量 w 、 中 ， 心 为 农村 居民 各 项 收入 的 线性 组 合 ， 其 中 xi CL 
资 性 收入 ) 和 xs (转移 性 收入 ) 较 其 他 变量 有 较 大 的 载荷 ，x' 的 载荷 最 大 。 这 说 明 u, E 
要 受 工 资 性 收入 及 转移 性 收入 的 影响 。 而 o, 为 农村 居民 各 项 支出 的 线性 组 合 ， 其 中 у, 
(生活 消费 ) 的 载荷 最 大 ， 说 明 w 主要 受 生 活 消 费 支 出 的 影响 ，ys (转移 性 支出 ) 对 vw 的 
影响 也 较 大 。 从 而 也 可 以 说 明 农 村 居民 的 生活 消费 支出 中 ， 较 大 的 部 分 是 由 工资 性 收入 
及 转移 性 收入 来 维持 的 。 

(4) 在 第 二 组 典型 变量 u,、v, 中 ， 在 农村 居民 各 项 收入 的 线性 组 合 wH, х, (REE 
经 营 收 入 ) 的 载 符 量 最 大 ， 且 要 比 其 他 各 个 变量 的 载荷 量 要 大 得 多 。 这 说 明 家 庭 经 营 收 
人 在 农村 居民 的 总 收入 中 占有 很 重要 的 位 置 。 而 在 农村 居民 各 项 支出 的 线性 组 合 о, Н, 
又 以 y，( 家 庭 经 营 支 出 ) 的 载 集 量 为 最 大 ， 同 样 说 明 家 庭 经 营 支 出 在 农村 居民 支出 中 占 
有 较 大 的 比重 。 在 这 对 典型 变量 中 ， 显 示 了 家 性 经 营 收 入 与 家 庭 经 营 文 出 之 间 的 密切 相 
关 性 。 

(5) 第 三 组 典型 变量 u, s, 之 间 的 相关 系数 仅 为 0.718， 比 前 两 组 典型 相关 变量 的 
相关 系数 要 小 一 些 ,， 但 仍 能 说 明 农 村 居民 各 项 收入 及 支出 的 相关 关系 。u, 中 载荷 量 较 大 
MULT AERE x, (工资 性 收入 ) Max, (PETERKA). nP y (REREH) 的 载荷 
量 最 大 ,但 各 变量 对 v 的 影响 较为 平均 ， 并 没有 明确 突出 各 项 收入 和 支出 的 相关 关系 。 

(6) 将 原始 数据 代入 第 一 对 典型 变量 中 ， 可 得 到 典型 变量 u, 、v 的 得 分 ， 根 据 各 省 、 
市 、 自 治 区 的 得 分 ， 可 画 出 得 分 平面 等 值 图 ， 如 上 图 所 示 。 

从 得 分 等 值 平面 图 上 可 以 看 出 ， 代 表 和 各省、 市、 自治 区 的 点 形成 近似 直线 的 分 布 ， 
表明 用 典型 相关 分 析 的 方法 能 较 好 地 说 明 农村 居民 收入 与 支出 的 相关 关系 。 


案例 分 析 题 
从 给 定 的 题目 出 发 ， 按 内 容 提 要 、 指 标 选 取 、 数 据 搜 集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 
1. 研究 各 部 门 社会 总 产值 与 投资 性 变量 间 的 相关 关系 。 
.对 社会 经 济 综合 发 展 水 平 与 电信 发 展 状况 作 典 型 相关 分 析 。 
.对 我 国 房地产 指标 作 典 型 相关 分 析 。 
.对 2010 年 各 大 城市 消费 品 供应 量 和 居民 消费 实力 作 典 型 相关 分 析 。 
. 对 我 国 农业 投入 与 农业 产量 作 典 型 相关 分 析 。 
研究 工业 企业 经 济 指标 之 间 的 相关 关系 。 
人 研 究 国民 收入 变量 和 投资 变量 之 间 的 相关 关系 。 
.对 科技 投入 与 产 出 作 相关 分 析 。 
. 对 我 国 工 业 和 第 三 产业 之 间作 典型 相关 分 析 。 
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思考 练习 题 
一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 
|. 试 述 典型 相关 分 析 的 基本 思想 。 
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2. 指出 根据 协 方差 阵 和 相关 阵 所 作 的 典型 相关 分 析 的 区 别 和 联系 。 
3. 分 析 一 组 原始 变量 的 典型 变量 与 其 主 成 分 的 异同 。 
4. 给 出 某 研究 的 协 方差 乍 阵 


Xi 10 0 о O 
T E [Xu Es]. 0 1.00 0.95 0 

x Y. €. 10 0.95 1.00 0 

x° 0 0 0 1. 00 


验证 : 第 一 对 典型 变量 为 U,-X; , V = 如 ”， 且 它们 的 典型 相关 系数 r =0. 95. 
5. 随机 变量 XU ХО 的 联合 均值 向 量 和 联合 协 方差 矩阵 为 : 
p = (uU „д? )' =( m 2.0,1)' 
(1) 计算 典型 相关 系数 mm no 
(2) 确定 典型 变量 配对 ( U,V) 和 (U,V,)。 
(3) 令 О=[0,,0,]' 5 LL E A09 RUP 由 第 一 准则 ， Ж: 
U U Zu Èw 
JU UP ERR 
二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 
1. 试 自行 编制 进行 典型 相关 分 析 的 R 语言 函数 。 
2. 应 用 自 编 典型 分 析 函 数 验证 思考 题 第 4 题 。 
з. 应 用 自 编 典型 分 析 函 数 计算 思考 题 第 5 题 。 
4. 对 n 270 个 家 庭 的 随机 样本 进行 调查 ， 用 以 确定 某 “ 人 口 统计 ”变量 和 某 “ 消 
费 ” 变 量 的 联系 。 
| ë 38 Á | 预报 组 ”| 


Х = 户主 的 年 龄 
а) _ 
X, ' = 每 年 去 餐馆 就 餐 的 频率 X) = 家 庭 年 收入 
X3”= 户主 受 教育 程度 


假设 对 以 上 变量 的 70 个 观测 值 给 出 样本 相关 系数 矩阵 : 


X;”= 每 年 出 外 看 电影 的 频率 


1. 00 
0.80 1.00 
Ri Ry 
R=| -|0.26 0.33 1.00 
R3 R,, 


0.67 0.59 0.37 1.00 
0.34 0.34 0.21 0.35 1.00 

(1) 确定 样本 典型 相关 系数 ， 并 且 在 显著 性 水 平 a =0. 05 F, REBRE H: У, =0 
(或 等 价 地 pa =0) 。 知 拒绝 H,, ， 检 验 第 一 相关 系数 的 显著 性 〈 а =0. 05), 

(2) 用 标准 化 变量 ， 构 造 与 “显著 的 ”典型 相关 系数 相对 应 的 典型 变量 。 

(3) 利用 (1) A (2) 的 结果 ， 将 典型 变量 系数 (对 “显著 的 ”典型 相关 系数 ) 
和 典型 变量 与 其 原 变量 的 样本 相关 系数 列表 。 

(4) 根据 (3) 给 出 的 信息 ， 阐 述 这 些 典型 变量 。 

(5) 人 口 统计 变量 对 消费 变量 是 否 有 影响 ? 消费 变量 比 人 口 统计 变量 提供 的 信息 要 
多 吗 ? 


2⁄4. МЕРА 


5. 职业 满意 度 的 典型 相关 分 析 。 
在 研究 组 织 结构 对 “职业 满意 度 ” 


的 影响 时 ，Dunham 调查 了 职业 满意 度 与 职业 特 


性 相关 的 程度 。 利 用 一 种 调查 方法 ， 对 从 一 大 型 零售 公司 各 分 公司 挑 出 的 n=784 个 行政 
AB, 测量 了 p =5 个 职业 特性 和 g =7 个 职业 满意 度 变量 。 那 么 职业 满意 度 与 职业 特性 
是 否 相 联系 呢 ? 这 对 于 职业 规划 很 有 启示 意义 。 

原始 职业 特性 变量 X 和 职业 满意 度 变 量 了 分 别 为 ; 


用 户 反馈 
任务 重要 性 
=| 任务 多 重 性 |， 了 = 
任务 特性 
自主 权 


系数 矩阵 为 : 


К, х7 
К, х7 
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试 对 该 数据 进行 典型 相关 分 析 。 


主管 满意 度 
事业 前 景 满意 度 
财政 满意 度 
工作 强度 满意 度 
公司 认同 感 
工种 满意 度 
总 体 满意 度 


1. 00 

0.43 1.00 

0,27 9.33. ДШ) 

0.24 0.26 0.25 1.00 

0.34 0.54 0.46 0.28 1.00 

0.37 0.32 0.29 0.30 0.35 1.00 

0.40 0.58 0.45 0.27 0.59 0.31 1.00 


6. 我 国 工农 业 产业 系统 的 典型 相关 分 析 。 

首先 将 工业 内 部 五 个 结构 比重 变量 作为 第 一 组 分 析 变 量 , X, : 以 农业 产品 为 原料 的 
生产 部 门 的 产值 占 总 工业 部 门 产值 的 比重 ; X,: 以 非 农业 产品 为 原料 的 生产 部 门 的 产值 
占 总 工业 部 门 产值 的 比重 ; X,: 采掘 工业 部 门 的 产值 占 总 工业 部 门 产 值 的 比重 ; X,: 原料 
工业 部 门 的 产值 占 总 工业 部 门 产值 的 比重 ; X;: 加 工 工业 部 门 的 产值 占 总 工业 部 门 产值 
的 比重 。 把 农业 内 部 四 个 部 门 的 产值 的 比重 变量 作为 第 二 组 分 析 变 量 ，Y, : 农业 部 门 的 
产值 占 总 行业 产值 的 比重 ; Ү,: 林业 部 门 的 产值 占 总 行业 产值 的 比重 ; У,: 牧 业 部 门 的 产 
值 占 总 行业 产值 的 比重 ; Y,: 渔业 部 门 的 产值 占 总 行业 产值 的 比重 。 原 始 数据 分 别 为 各 


个 部 门 的 年 产值 。 
年 份 X, X, X, X, X; Y, Y, Y, Y, 
1984 33.73 15.83 6.41 18.38 25.65 74.00 5.03 18.24 2.65 
1985 33.20 16.40 5.80 17.90 26.70 69.28 5.21 22.02 3.48 
1986 32.51 14.00 6.63 20.64 26.22 69.12 5.01 21.77 4.10 


ll 典型 相关 分 析 及 民 使 用 572265 
( 续 上 表 ) 

年 份 X, X, X, X, X, Y, Y, Y, Y, 

1987 32.77 13. 99 6. 59 20.68 25.97 58.85 6.04 29. 00 6. 12 
1988 32.34 14. 84 5.99 20.38 26.45 62. 57 4. 69 27. 24 „ e 

199 32.20 1444 6.14 2131 2591 62.75 436 27.55 5.34 
1990 32.74 1422 621 .2227 24.56 64.66 431 2567 5.36 
199] 31.69 14.62 6. 28 22.40 25.01 63.09 4. 51 26. 47 5. 93 
1992 29. 86 14, 21 5. 87 22.96 27.10 61.51 4. 65 27.08 6.75 
1993 26.38 13.67 6. 18 25.86 27.90 60.07 4. 49 27.41 8. 02 
1994 28.48 13. 72 6. 32 23. 81 27.67 58.22 3. 88 29. 66 8. 24 
1995 28.88 13.87 6.35 23.26 2764 58.43 3.49 29.72 8.36 
1996 28.67 14. 37 6. 61 22.15 28.20 60.57 3. 48 26.91 9. 04 
1997 27.95 1479 6.86 21.99 28.41 58.23 3.44 28.73 9.60 
1998 27.16 15.77 5.97 22.32 28.77 5803 3.47 28.63 9.87 
1999 26.04 15.93 5.83 22.89 29.31 5753 3.61 28.54 10.31 
2000 24.59 15.20 6.30 24.38 29.52 55.68 3.76 29.67 10.89 
2001 24. 73 14. 70 5. 59 24.46 30. 52 55. 24 3. 59 30.42 10. 75 
2002 24.50 1464 5.30 23.61 31.95 5451 3.77 30.87 10.85 

对 该 资料 进行 全 面 的 典型 相关 分 析 。 


7. 各 类 投资 资金 与 三 大 产业 的 典型 相关 分 析 。 
根据 固定 资产 投资 的 资金 来 源 、 理 论 框 架 以 及 我 国 现 有 数据 资料 ， 我 们 选取 以 下 五 
个 指标 作为 第 一 组 变量 来 衡量 投资 资金 的 变化 ; 
x: 国家 预算 内 资金 ，x,: 国内 贷款 ，x3 : 利用 外 资 ，xs。: 自 筹 资金 ，x;: 其 他 资金 
来 源 。 
对 反映 各 产业 生产 总 值 的 变量 选择 下 面 三 个 指标 作为 第 二 组 变量 来 衡量 : 
y: 第 一 产业 国内 生产 总 值 ，y,: 第 二 产业 国内 生产 总 值 ， 为 : 第 三 产业 国内 生产 
总 值 。 
采用 的 国家 固定 资产 投资 资金 指标 数据 以 及 三 大 产业 国内 生产 总 值 的 指标 数据 根据 
《中 国 统计 年 鉴 2007》 中 我 国 31 个 省 、 市 、 目 治 区 的 相关 数据 汇总 整理 得 出 ， 数 据 如 
TX. 


地 区 


北京 
xm 
河北 
山西 


国家 预算 


内 资金 
105. 400 
22. 785 
98. 790 
81.810 


内 蒙古 149.208 


辽宁 
吉林 


271. 519 
83. 019 


2006 年 我 国 各 地 区 各 类 投资 资金 与 三 大 产业 的 统计 表 


国内 贷款 


1 316. 280 
527. 754 
637. 992 
474. 045 
400. 924 
742. 465 
264. 945 
222. 510 


利用 外 资 BOSE 


76. 180 
152. 978 
76. 956 
29.216 
21. 826 
132. 420 
60. 079 
30. 269 


| 523. 354 

1181. 860 
4 247. 016 

1504. 403 
2 514. 238 
4 184. 750 
1 852. 620 
1 560. 439 


其 他 资金 


1 825. 407 
397. 254 
600. 335 
263. 945 
207. 271 
695. 632 
316. 091 
328. 223 


第 一 产业 


98. 040 
118. 230 

1 606. 480 
276. 770 
649. 620 
976. 370 
672. 760 
737. 590 


第 二 产业 


2 191. 430 
2 488. 290 
6 115. 010 
2 748. 330 
2 327. 440 
4 729. 500 
1 915. 290 
3 365. 310 


第 三 产业 


5 580. 810 
] 752. 630 
3 938. 940 
I 727. 440 
1 814. 420 
3 545. 280 
1 687. 070 
2 086. 000 


黑龙 江 119. 629 
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GEER) 


地 区 


国家 预算 


内 资金 
74. 284 


国内 贷款 


利用 外 资 


自 筹资 金 


其 他 资金 


1 157. 020 


L$ 
江苏 
浙江 


陕西 
甘肃 
青海 
TE 
新 疆 


66. 594 
130. 364 
181. 111 
140. 835 
202. 941 
207. 475 
124. 844 
295. 328 
133. 206 
105. 304 
144. 572 

32. 315 
137. 902 
151. 035 

60. 578 
163. 984 
108. 257 
217. 588 

97. 887 

59. 104 

45. 658 
211. 925 


] 445. 170 
1 564. 620 
618. 053 
763. 568 
327. 589 


705. 281 
681. 
524. 
I 647. 420 
395. 376 


185. 451 


2770. 436 
874. 809 
387. 513 
58. 786 
143. 843 
95. 489 
483. 372 
71. 365 
69. 342 
94. 446 
865. 527 
49, 332 
67. 596 
28. 148 
79. 991 
14. 436 
18. 355 
0. 000 
24. 170 
15. 290 
2. 028 
8. 937 
8. 867 


2 241. 892 
6 791.450 
4795. 700 
2 311.116 
1 585. 739 
1 721.177 
8 333. 063 
4 647. 426 
2 055. 822 
2 168.955 
4 595. 452 
1 213. 429 
171. 908 

1 123. 780 
2 976. 095 
696. 070 

1 009. 425 
67. 114 

1 463. 966 
557. 815 
179. 363 
238. 409 
925. 065 


请 对 该 资料 进行 全 面 的 典型 相关 分 析 。 


1 178. 676 
1 591. 382 
1 567. 890 
536. 415 
791. 870 
394. 767 
I 269. 343 
755. 784 
475. 911 
482. 218 
1 924. 468 
470. 659 
76.911 
624. 748 
786. 674 
178. 347 
362. 634 
63. 595 
333. 033 
154. 340 
83. 243 
70. 582 
246. 086 


第 一 产业 ”第 二 产业 第 三 产业 
93.800 5028.370 5 244.200 
1 545.010 12250.840 7 849.230 
925.100 8 509.570 6 307.850 
1 028.660 2 648. 130 2 471. 940 
896.170 3 743.710 2 974. 670 
786. 140 2 320. 740 1 563. 650 
2138.900 1 2751.200 7 187. 260 
2 049.920 6724.610 3 721. 440 
1 140.410 3 365.080 3 075. 830 
1 332.230 3151.700 3 084. 960 
1 577. 120 13 431. 820 11 195. 530 
1 032.470 1 878. 560 1 917. 470 
344. 480 287.860 420. 510 
425.810 1 500.970 1 564. 790 
1 595.480 3 775. 190 3 267. 140 
393. 170 980.780 908. 050 
749.810 1 712.600 1 544. 310 
50. 900 80.100 160.010 
488.480 2 440. 500 1 594. 760 
333.350 1 043.190 900.160 
69. 640 331.160 240. 780 
79. 540 349.830 281. 390 
527.800 1 459.300 1 058. 160 


12 多维 标 度 法 MDS 及 R 使 用 


【 目的 要 求 】 了 解 多 维 标 度 的 基本 思想 和 实际 意义 ， 以 及 它 的 数学 模型 和 二 维 空间 上 
的 几何 意义 ; 掌握 多 维 标 度 法 的 基本 性 质 ; 能 够 利用 软件 自己 编程 解决 实际 问题 。 

【教学 内 容 】 多 维 标 度 法 的 基本 理论 与 方法 ; 多 维 标 度 法 的 古典 解 和 非 度量 方法 ; T 
算 程 序 中 有 关 多 维 标 度 法 的 算法 基础 ; 多 维 标 度 法 的 基本 步骤 以 及 实证 分 析 。 


在 实际 中 ， 我 们 常会 遇 到 这 样 的 问题 ， 有 n 个 由 多 个 指标 反映 的 客体 ， 但 反映 这 些 
客体 的 指标 个 数 是 不 清楚 的 ， 甚 至 连 指标 本 身 也 是 模糊 的 ， 更 谈 不 上 对 它 直接 测量 或 观 
W, ， 所 能 知道 的 仅仅 是 这 n 个 客体 之 间 的 某 种 距离 (不 一 定 是 通常 的 欧 氏 距离 ) 或 某 种 
相似 性 ， 我 们 希望 仅 由 这 种 距离 或 者 相似 性 给 出 的 信息 出 发 ， 在 较 低 维 的 欧 氏 空间 把 这 
n 个 客体 (作为 几何 点 ) 的 图 形 绘制 出 来 ， 从 而 尽 可 能 及 时 地 反映 这 些 客体 之 间 的 真实 
结构 关系 ， 这 就 是 多 维 标 度 法 所 要 研究 的 问题 。 

多 维 标 度 分 析 (multidimensional scaling, MDS) 是 以 空间 分 布 的 形式 表现 对 象 之 间 相 
似 性 或 亲疏 关系 的 一 种 多 元 数据 分 析 方 法 。 其 主要 结果 是 偏好 图 (又 称 多 维 标 度 图 ) 等 。 
1958 年 Torgerson 在 其 博士 论文 中 首次 正式 提出 这 一 方法 。MDS 分 析 多 见于 市 场 营销 ， 近 
年 来 在 经 济 管理 领域 的 应 用 也 日 趋 增多 , 但 国内 在 这 方面 的 应 用 报道 得 极 少 。 

MDS 分 析 技 术 的 理论 手段 主要 是 多 元 统计 分 析 方 法 ， 如 二 元 正 态 分 布 变 量 的 散 点 图 
大 致 为 一 个 椭圆 中 的 主 成 分 分 析 、 因 子 分 析 和 对 应 分 析 等 方法 。 这 些 方 法 都 是 数学 上 特 
别 是 统计 学 上 进行 降 维 处 理 的 有 效 手段 。 我 们 知道 ， 因 子 分 析 和 对 应 分 析 都 是 在 主 成 分 
分 析 的 基础 上 发 展 而 来 的 ， 所 以 本 文 重点 讨论 如 何 利 用 主 成 分 分 析 法 来 实现 MDS 技术 。 


12.1 MDS 的 基本 理论 和 方法 


多 维 标 度 法 是 一 种 利用 客体 间 的 相似 性 数据 去 揭示 它们 之 间 的 空间 关系 的 统计 分 析 
方法 。 它 是 通过 一 系列 技巧 ， 识 别 构成 一 个 关键 的 维 数 ， 并 在 这 个 确定 维 数 的 空间 中 估 
计 一 组 样本 的 坐标 ， 其 基础 数据 可 以 是 配对 样本 间 的 距离 阵 D=(d;)*， 也 可 以 是 相似 系 
БОРЕ ОНИЕ) C = (c), 后 者 可 以 通过 标准 变换 а, = (c; - 2с, +c)? Fe KURIE 
离 阵 。 

根据 分 析 数 据 的 类 型 ， 可 将 多 维 标 度 法 分 为 度量 化 模型 与 非 度量 化 模型 若 模型 所 
需要 的 相似 性 数据 是 用 距离 尺度 或 比率 尺度 测 得 的 ， 则 这 类 模型 就 是 度量 化 模型 ， 若 模 
型 只 需要 顺序 量 表 水 平 的 相似 数据 ， 就 称 其 为 非 度量 化 模型 。 

为 了 说 明 多 维 标 度 法 ， 先 看 一 个 经 典 的 例子 。 

【 例 12 -1】 表 12 -1 列 出 了 美国 10 个 城市 间 的 公路 距离 ， 由 于 公路 弯 弯 曲 曲 ， 这 
些 距离 并 不 是 城市 间 真 正 的 距离 。 我 们 希望 在 地 图 上 重新 标 出 这 10 个 城市 ， 使 得 它们 之 
间 的 距离 接近 表 12 - 1 中 的 距离 。 
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3* 12 -1 美国 10 个 城市 间 的 公路 距离 


24m 


如 果 用 D = (d,) dem 12-1 HER, TZ X ЕЛЕБИ, {НЭЕЖ—ЖЖ n 个 点 的 
距离 ， 即 不 是 我 们 通常 所 理解 的 距离 阵 。 于 是 首先 我 们 需要 将 距离 阵 的 概念 加 以 拓展 。 
定义 12.1 — “пхп EBE D=(d,), FWE D' =р,а, =0, 4,20,(,ј=1,2,---,п;і 
Zj), WEK D 为 距离 阵 。 
对 于 距离 阵 D =(d,) ， 多 维 标 度 法 的 目的 是 要 寻找 p 和 К^ п К ду, +з, х„, 
用 d, 表 示 x 与 x, 的 欧 氏 距离 ,DD = (4,), [48 D 5 D 在 某 种 意义 下 相近 。 在 实际 运用 中 ， 
常 取 上 =1，2，3。 将 寻找 到 的 nn 个 点 x， ，x,，…, x, ， 写 成 矩阵 形式 : 
X=(x,,x,,""" x.) (12.1) 
WEK X A DHAR ОВИЕ) TER HERE P, НК x 为 距离 阵 D 的 
一 个 拟 合 构造 点 ,为 拟 合 构图 ， 由 这 个 点 之 间 的 欧 氏 距离 构成 的 距离 阵 称 为 D 的 拟 
合 距离 阵 D。 拟 合 构图 的 意义 在 于 ， 有 了 针 中 个 拟 合 构造 点 x, 的 坐标 ， 就 可 以 在 R h 
画 出 图 来 ， 使 得 它们 的 距离 阵 D 与 原始 的 n 个 点 的 距离 阵 D 接近 ， 并 可 对 原始 n 个 客体 
的 关系 作出 一 个 有 意义 的 解释 。 特 别 地 ， 当 D =D BF, 称 x 为 D 的 构造 点 ,为 构图 。 
需要 指出 的 是 ， 多 维 标 度 法 的 解 并 不 唯一 。 若 式 是 解 ， 令 
Y= X +a 
Ex, Г 为 正 交 阵 ，a 为 任 一 常数 向 量 ， 则 Y=(y,,…,y,) 也 是 解 ， 因 为 平移 和 正 交 变 
换 不 改变 欧 氏 距离 。 
下 面 我 们 将 利用 主 成 分 分 析 的 思想 给 出 求 古典 解 的 方法 ， 并 讨论 古典 解 的 优良 性 。 
本 章 还 将 对 非 度量 法 进行 描述 。 


12.2 MDS 的 古典 解 


1. 欧 色 型 距离 阵 及 其 判定 定理 
定义 12.2 Л р = ( 几 ) 称 为 欧 氏 型 的 ， 知 存在 某 个 正 整数 P 及 疡 维 空间 К” 
FË nix. cn. ox. DIS 


12 多维 标 度 法 MDS 及 及 使 用 dud 


d, = (x, —z,) (x 7x) , i, J=l,2.--,n (12.2) 
如 何 判 断 一 个 距离 是 不 是 欧 氏 型 的 ?如 何 求 得 欧 氏 型 距离 了 泗 所 相应 的 n 个 点 呢 ? 这 
是 下 面 首先 要 解决 的 问题 。 


令 二 - > d; (12.3) 
B-H'AH, н=1,- 1,1, (12.4) 


借助 于 这 些 定义 ， 下 面 的 定理 给 出 判断 D 是 否 为 欧 氏 型 的 充分 必要 条 件 。 
定理 12.1 一 个 nxn HERE D 是 网 氏 型 的 充 要 条 件 是 B20, 
证 明 : 


(必要 性 ) 
i; D 是 欧 氏 型 的 ， 则 由 定义 12. 2 可 知 ， 存 在 x, ，…，x, e R*"， 使 得 
d; = -2a, = (x, —x,) (x, —sx;) (12.5) 
由 式 (12.4) 可 得 
B =H'AH =A -}AJ -JA +ŁJAJ (12.6) 
n n n 
AP, J = ЫЎ 注意 
a, 
Жака. aud k ооа). Ина 
м п п 
a, 
Ж, а, = Хар 2,7 —-Ya,, a iie (12. 7) 
将 它们 代入 式 (12.6) 中 ， 得 到 
b. =a,-a, -й,+а._ (12.8) 
再 由 式 (12.5) 可 求 得 oj， 本 ，6j，6. ， 将 它们 代入 式 (12.8), 得 
b; = (xi —x)'(x, -x) 20 (12.9) 
式 中 , z= 一 全 x。 
X (12.9) 的 和 矩阵 表达 为 : 
B-(HX)(HX)'z0 (12. 10) 
因为 HX 正 是 将 的 数据 中 心 化 ， 即 
HX = (X, «Жый S X)' (12. 11) 
(充分 性 ) 


记 p = rank(B) ,A ,A,,…, 和 A, 为 В 的 正 特征 根 ，x(),… ,x 为 相应 的 特征 向 量 。 
4 BzO0, ДНЕ PR 
В = Н'АН = ГАГ' (12; 12) 
Ж Azdig(A,,A;7,2,),A3; 2: ZA В Вр ЛЕ ПЕН P = ХА, T ñj p 
列 为 对 应 的 p 个 标准 正 交 化 的 特征 向 量 。 取 和 = FA ， 它 是 一 个 mxP MER. fet X E 
АЎ Х = (x, ,X471,x,)' = qn x0) s X()) » 于 是 有 
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X'X Z(FAP)'(PA") 3A, B= XX' (12. 13) 
Bl b, =x; xj。 由 此 求 得 x 与 的 两 点 的 距离 平方 
(x, 7 x;) (x, 7 xj) = x/'x, — 2x/'x; + x x, = b, - 2b; + b; 
= а; — 2а, + a; [ 由 式 (12.8) | 
= – 2а, (由 ai = а; = 0) 
E Ф (12. 14) 


这 表明 存在 正 整数 p 和 一 个 n Xp Br yB ЕЕ Х = (x, E E =ГА'?, 使 得 X E D 的 
构造 点 ， 从 而 D 是 欧 氏 型 的 。 

2. 多 维 标 度 法 的 古典 解 

мр 是 欧 氏 型 时 ， 定 理 12. 1 已 给 出 了 寻求 构造 点 X 的 办 法 ; 4 D 不 是 欧 氏 型 时 ， 
不 存在 D 的 构造 点 ， 只 能 寻求 D 的 拟 合 构造 点 ， 记 作 针 ， 以 区 分 真正 的 构造 点 了。 在 实 
Ber, XD 是 欧 氏 型 ， 则 存在 п хр 阶 的 构造 点 ,但 如 果 p 太 大 ， 则 会 失去 直观 意义 而 不 
便于 解释 ， 这 时 宁可 不 用 闷 ， 而 是 去 寻求 低 维 的 拟 合 构 造 点 匀 。 所 以 ， 在 这 两 种 情形 下 ， 
都 需要 寻求 拟 合 构造 点 ( 拟 合 构图 ) 。 

在 定理 12. 1 中 ,由 万 获得 在 的 途径 (sÇ 12. 14) 给 我 们 一 个 启示 ， 可 仿造 这 个 途径 来 给 
出 〈 非 欧 氏 型 ) 距离 阵 的 拟 合 构造 点 ， 基 于 这 种 思想 得 到 的 拟 合 构造 点 称 为 多 维 标 度 法 的 古 
典 解 。 

下 面 我 们 给 出 古典 解 的 求解 步 又 : 


(1) ШЕ D = ( 必 ) 构 造 4= (a) = ( 05). 


(2) #B=(b,), 使 b,=a, -a -ai-a o 
(3) 求 召 的 特征 根 A,2A, 2 mA,, AAMIR, RH В>0, Aui DERRE 
的 ; 若 有 人 负 特征 根 ，D 一 定 不 是 欧 氏 型 的 。 令 


Sa SQ 

这 两 个 量 相当 于 主 成 分 分 析 中 的 累积 贡献 率 ， 当 然 我 们 希望 取 丰 不 要 太 大 ， 而 a 和 
ai 比较 大 。 当 上 大 取 定 后 ， 用 2 t iw ER B 的 对 应 于 和, ,… An 的 正 交 化 特征 向 量 ， 
使 得 ,X= 入 ;,i =1,…,k， 通 常 还 要 求 A; >0， 若 和 ,<0， 要 缩小 的 值 。 

(4) Å= iw), W X ШИТ x ,… ,x, 即 为 欲求 的 古典 解 。 

为 了 说 明 上 述 求解 的 步 又， 下 面 看 一 个 例子 。 


ai = 


【 例 12 -2】 设 有 距离 阵 如 下 : 


01 5 2 

0 1 B 

0 l 

D = 0 
由 ay = - >d 
"ej y gs 


再 由 式 (12.8) 得 到 
3 $ = 2 


© — DN 4 


2 1 -l -2 
2 1 -1 

2B = 2 1 

2 

由 于 B 的 列 有 如 下 的 线性 关系 : 
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KA, G, , а, а 如下: 


с, O OOOO Q 


bia 2b, -ba (bay = 7b, bs, = -bas b =b bo, b. 20, 
故 B 的 秩 最 多 为 2， 再 由 В 的 第 一 个 二 阶 主子 式 非 退 化 ， 故 rank(B) 22, 
并 求 得 À, = À; =3, À; == =À; =0。 特征 回 量 x (4 和 xl 可取 对 应 于 À =3 的 子 空 间 


中 任 一 对 正 交 化 的 向 量 ， 比 如 取 


xa) =(a,a,0, -a, -a,0,0)', a 


- 3 
-2, 


” 
m 271 
Nie 
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x = (b,b, -2b, -b,b,2b,0)', b= 
于 是 七 个 点 的 坐标 分 别 为 : 
CA 


因为 B>0， 所 以 原 和 矩阵 万 是 欧 氏 型 的 ， 故 这 个 古典 解 是 刀 的 古典 解 。 
【 例 12 -3】 考 虑 例 12 -1 中 美国 10 个 城市 的 距离 阵 ， 相 应 В 的 特征 根 如 下 : 
à, 2958 214, А, 2168 682,.А,=8 157, А, =1 433, А, =509, А, =25, А, = 0, 
А, = -898, A, = -5 468, À, = -35 479 
最 后 三 个 特征 根 是 负 的 ， 表 明 D 不 是 欧 氏 型 的 。 当 k=2 时 ， 
a, =99.5%, a, › = 100. 0% 
故 取 上 =2 就 可 以 了 ， 前 两 个 主 成 敌 相 应 的 特征 向 量 [满足 式 (12.12)] 为 
хуу 2 ( -719, -382,482, -161,1 204, -1 134, -1 072,1 421,1 342, –980)' 
x(3 = (143, -341, ~ 25 ,573 ,390,582, - 519,113, -580, -335)' 
于 是 可 将 xu xa 相应 的 10 个 坐标 点 画 在 图 上 ， 就 可 以 看 到 由 古典 解 确定 的 10 个 
城市 的 位 置 。 


"~" 


HE mvstats. xls : 412. 1 中 选取 AT: K11 区 域 ,然后 拷贝 
‚ > D = read. table( " clipboard" , header = T) 
: > library ( MASS) 


N|- 


i» D = as. matrix ( D ) 
' » fit ZisoMDS( D, k 22) 


' $ points Кк [ ,2] 

' AU -719 143.0 
: Chi - 382 - 340. 8 
| Den 482 -25.3 
x LA 1204 389. 8 
; Mia - 1134 581.9 
! NYC - 1072 -519.0 
x SF 1421 112.6 
: Sea 1342 -579.4 
! WDC -980 — 335. 5 


I 
I 
I 
Hou -161 572.8 
t 
I 
l 
: >x = fit $points[ ,1 ] | 
i»ys = fit $ points[ ,2 | : 


! > plot(x,y,type ="n "); text(x,y,labels = row. names( D) 


EEE — 55 44 5 +44 404 4ш 4 4ш 5 5 ш 5 ж ФЕ Ж ЖШ 4 1... жч ФЕ Ф ШО 4 ШШ оч чш че ч чш чыш чш ч ч чн чоч сч чоч оош ......Á...Á....Á....Á....-Á...-Á...Á.......Á..-1......Á....... 
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CE 


y 
-600-400-200 0 200 400 600 


-1000 -500 0 500 1000 1500 
x 


i 


设 X 是 一 个 n xp Ж, ФА = X'HX, L, =l, A 的 特征 根 记 作 A, 2 mA,, Ж 


简单 起 见 , BEA A2, >>, A20, RTL, Ai, А, cn, А, 也 为 B = HXX' H 的 非 零 特征 
№. Н НХ 的 行 是 X 行 的 中 心 化 ， 因 此 B = (b;) 中 的 元 素 可 表示 为 : 
b;,= (x,-—x,) (x;—%;) 
id wo 为 中 对 应 于 和 ;的 特征 向 量 ， 且 wo oo = 和 =1,2,…，P， 此 时 令 
Va) 2 (Va), Viz, 9) = (0, v, v, )' 
WR v, о.о.) ÀJ X BJ k EEE, 
TR, АЕК EAMUS КАЕ А ОШ ЖЬ ЖЖ X 的 行 看 作 p 维 实数 空间 
Н n 个 点 ， 它 们 之 间 的 欧 氏 距离 阵 记 作 D。 由 定理 12.1 可 知 , 刀 在 大 维 实数 空间 中 拟 合 
构造 点 的 古典 解 就 是 X 的 大 维 主 坐 标 。 
定理 12.2 XH k ЕУЕН AX PLAE п ERKA k ERDE, 
ЕУР Х = ХГ, 6 k HEB rh, Г, = ГОИ, ВИДАЧА. M = XT, E 
AE X B k ERIR, RHE RER ВЕ, 


12.3 非 度量 方法 


古典 解 是 基于 主 成 分 分 析 的 思想 ， 这 时 
d, -d, +=, 
式 中 ，d;, 是 拟 合 d АН, e ERA, BAR, а, d, 之 间 的 拟 合 关系 可 以 表示 为 : 
d, =f(d, + e;) 
式 中 ，j 为 一 个 未 知 的 单调 增加 的 函数 。 这 时 ， 我 们 用 来 构造 d, 的 唯一 的 信息 是 利用 
ldi} 的 秩 , 将 idj, i«jl. 由 小 到 大 排列 为 : 
d 


.. Sd.. S- Sd. . 
i A sd, = <d, 5. , 


(ij) 所 对 应 的 必 在 上 面 的 排列 中 的 名 次 〈 由 小 到 大 ) 称 为 (i,j) 或 d; Ek. efl Ta 
寻找 一 个 拟 合 构造 点 ， 使 后 者 相互 之 间 的 距离 也 是 如 上 的 次 序 ， 即 


т=-уп(п-1) 
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d, p <d,,, ча ,. 


monotone 


并 记 为 : d,—— a, 


这 种 模型 多 数 出 现在 相似 系数 矩阵 的 场合 ， 因 为 相似 系数 强调 的 是 物品 之 间 的 相似 ， 
而 非 距离 。 


求 这 个 模型 的 解 有 一 些 方法 ， 其 中 以 Shepard-Kruskal 算法 最 为 流行 ， 它 的 步骤 如 下 : 
(1) 已 知 相似 系数 矩阵 D = (d;)， 并 将 其 非 对 角 线 元 素 由 小 到 大 排列 起 来 : 


l 
d; j <d, , xd, , ,m => nn -1),i <j,l=1,2,:--,m 


(2) WX, ,是 左 维 拟 合 构造 点 ， 相 应 的 距离 阵 户 = (4.), 4 
‚о. шіп, (d; - d,) 
S (X) тозе ша (12. 15) 
{ЛУМ а (dz 4 ) 进 行 的 ， 使 上 式 达 到 极 小 的 dz 称 为 XI i dyl 的 
最 小 二 乘 单 调 回 归 。 
如 果 d, _ monotone 
造 点 。 
(3) 若 丰 固定 ， 且 能 存在 一 个 名， 使 得 
S(X,) = miny 8(Х) =S, 
则 称 X, 为 上 维 最 佳 拟 合 构造 点 。 
(4) 由 于 S$，( 也 称 压力 指数 ) 是 大 的 单调 下 降序 列 ， 取 大 使 5 适当 小 。 例 如 S, <5% 
最 好 ，5% <S, <10 RÈ, 5, > 10% 较 差 。 
求解 可 用 梯度 法 进行 迭代 。 


d ER (12.15) Ф d;=d,(i<j), Br, S'(X) =0, X E D 的 构 


12.4 多维 标 度 法 的 计算 过 程 


多 维 标 度 法 的 计算 实现 步 又 主要 包括 以 下 几 步 : 
(1) 确定 研究 的 目的 。 
(2) 选择 需要 进行 比较 分 析 的 样品 和 变量 。 
(3) 计算 样品 间 的 距离 矩阵 。 
(4) 选择 适当 的 求解 方法 ， 分 析 样 品 间 的 距离 矩阵 。 
(5) 选择 适当 的 维 数 ， 得 到 距离 阵 的 古典 解 ， 将 各 个 样品 直观 地 表现 出 来 并 对 结果 
进行 解释 。 
(6) 检验 模型 的 拟 合 效果 。 
【 例 12 -4】 广东 省 各 地 区 农村 发 展 状况 评价 分 析 。 
改革 开放 以 来 ， 我 国 经 济 飞速 发 展 ， 城 市 化 程度 加 快 并 加 大 ， 现 代 化 程度 越 来 越 高 ， 
城镇 人 民 的 生活 水 平 也 越 来 越 高 。 但 是 相对 来 说 ， 农 村 人 民 的 生活 水 平 变化 不 是 很 大 ， 
现代 化 程度 也 不 高 。 中 国 的 目标 是 建设 一 个 有 中 国 特色 的 社会 主义 现代 化 国家 ， 提 高 人 
民 的 生活 水 平 。 要 实现 这 个 目标 ， 首 要 问题 是 农民 的 问题 ， 中 国 是 一 个 农民 大 国 ， 有 着 
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8 亿 农 民 ， 农 民 在 中 国 占 有 举足轻重 的 地 位 。 只 有 实现 了 农村 的 现代 化 ， 提 高 了 农民 的 
生活 水 平 ， 才 能 实现 中 国 的 现代 化 。 因 此 ， 农 民 问 题 始 终 是 中 国 的 首要 问题 ! 

(1) 背景 分 析 。 

农民 问题 始终 是 中 国 的 首要 问题 。 要 实现 中 国 的 现代 化 ， 首 先 要 实现 农村 的 现代 化 ， 
提高 农民 的 生活 水 平 ， 因 此 ， 长 期 以 来 ， 对 农村 发 展 状 况 进 行 评价 分 析 一 直 是 科学 研究 
者 和 政府 工作 者 关注 的 重点 。 但 是 ， 能 够 反映 农村 发 展 状 况 的 指标 众多 ， 而 各 个 指标 之 
间 往 往 又 存在 一 定 的 相关 性 ， 容 易 造 成 信息 的 重复 。 与 此 同时 ， 各 地 区 之 间 的 情况 各 异 ， 
各 个 指标 此 高 彼 低 。 因 此 ， 必 须 对 各 地 区 的 农村 发 展 状 况 进行 综合 的 评价 和 分 析 。 从 众 
多 的 指标 中 提取 合适 和 科学 的 公共 因子 ， 以 方便 对 各 地 区 农村 发 展 状 况 进 行 评 价 ， 有 助 
于 政府 部 门 制定 决策 并 对 决策 的 效果 进行 评价 分 析 。 因 此 ， 因 子 分 析 方 法 无 疑 是 解决 这 
一 问题 的 有 效 途 径 。 

(2) 分 析 对 象 。 

本 分 析 是 对 众多 的 指标 进行 筛选 ， 并 利用 多 维 标 度 法 进行 分 析 与 评价 ， 其 所 依托 的 
客体 是 2003 年 广东 省 各 地 区 农村 经 济 发 展 状况 统计 中 的 有 关 指 标 。 所 引用 的 资料 来 自 于 
《中 国 统计 年 鉴 》。 一 共 选 取 了 6 个 指标 : x, = 农业 产值 、x; = 林业 产值 、x3 = 牧 业 产值 、 
x, = 企业 人 数 、xs = 企业 总 产值 、xs = 利润 总 额 。 具 体 的 指标 数据 见 表 12 -2。 


表 12 -2 广东 省 各 地 区 农村 经 济 发 展 状况 指标 列表 

地 区 . Xi x, х; х х; хь 
广州 97.84 1.28 38.86 141.98 2089.55 121.07 
深圳 11. 20 0. 66 12. 59 156.52 418.16 50. 12 
珠海 5. 67 0. 11 3. 60 17. 39 360. 58 I0. 58 
汕头 29. 87 0. 57 17. 26 52. 45 673. 74 24. 07 
佛山 52. 39 0. 29 32. 14 90.77 1649.81 62.74 
韶关 47. 82 4. 47 18. 44 27.91 144. 51 16. 14 
河源 33. 57 3. 10 12. 84 12. 62 51.25 4. 73 
梅州 57.10 2. 74 28. 02 44. 12 226. 65 19. 75 
惠州 61. 57 4. 70 25. 20 70. 38 568. 79 40. 39 
ali FÉ 29. 82 1. 70 12. 09 30. 52 189. 00 6. 78 
东莞 20. 97 0. 14 20. 35 134.63 1380.42 74.01 
中 山 16. 87 0.21 5.33 91.43 1148.14 52.10 
江门 57. 33 1.79 39. 21 85.64 1252.07 32.68 
阳江 47.72 3. 27 21. 39 19. 52 191. 64 11.08 
湛江 87. 20 4. 72 34. 07 40. 60 390. 06 20. 96 
EZ 112. 00 7. 85 81. 36 76. 47 739. 34 40. 85 
Єр; 76. 06 16. 45 46. 77 52. 97 569. 93 19. 40 
清远 57.35 6. 67 28. 47 17.95 75. 29 6. 76 
潮州 27. 05 1.63 14. 88 35. 22 501. 63 20. 97 
揭阳 71. 08 2. 09 26. 43 50. 52 891. 76 17. 79 


云浮 44. 07 4. 65 38. 97 22. 23 188. 47 8. 70 
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(3) 计算 过 程 及 结果 分 析 。 
' > 412 = read. table( " ex12. 2. txt" ) 


i >D <- dist( d12) #d = аз. matrix( X) 
|» fit =isoMDS( D,k =2) 
| $ points 
| [al] 1,2] 
广州 1442. 5 17. 80 | 
i 深圳 -227.9  -100.30 
! 珠海 -295.1 -17.90 | 
: 汕头 20.2 -10.22 | 
佛山 997.9 11. 35 
| gx _ 509.2 2.37 
: 河源 -603.7 — -1.42 2 
E -426.0 4. 08 : 
; 惠州 -82.3 -2.40 | 
| 汕尾 -465.3 -10.64 
ЖЕ; 731.7 -51.57 
| 中山 496.5 -36.87 : 
i 江门 599. 7 12. 98 
: 阳江 -462.8 10. 72 : 
; 洪江 -262.7 34. 16 | 
| 茂名 89. 1 53. 58 | 
: ЖР: -82.8 29. 98 
1 清远 -579.0 18. 02 
E 潮州 -152.6 -7.34 
| 揭阳 23.8 30.61 : 
! 云浮 -465. 9 12. 01 | 
! > x = fit$ points[ ,1] ' 
> y=fit$points[ ,2 ] | 


> plot(x,y) ;abline(v=0,h=0,lty 23) 
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Bis in acd i a ms ac d ud en c a wasu asa ашаа d Он аа а t dj iR e n t n D tdi анн n ^d maia Ga Sawa maya aka ka n Оа ыа n n Qu p vp a s as a dim да 


由 于 我 们 在 维 数 中 选择 了 二 维 ， 所 以 可 以 用 二 维 平面 比较 直观 地 反映 各 地 区 的 位 置 。 
在 农村 中 的 工 、 企 业 产值 中 ， 广 州 表现 非常 出 色 ， 排 名 第 一 ， 紧 接 其 后 的 是 佛山 市 ， 这 
是 有 其 原因 的 。 广 州 市 和 东莞 市 都 是 一 个 工业 化 程度 比较 高 的 城市 ， 其 周围 的 郊区 也 建 
有 工业 区 ， 拥 有 许多 公司 。 在 许多 的 郊区 ， 由 于 地 理 位 置 的 便利 ， 许 多 外 资 在 此 进行 投 
资 办 厂 ， 而 且 在 这 些 地 方 ， 郊 区 农民 目 己 也 都 办 了 许多 的 集体 加 工 企 业 。 所 以 在 农村 中 
的 工业 、 企 业 产值 中 ,广州 市 、 佛 山 市 、 东 莞 市 依次 排 在 前 列 。 但 是 在 农村 的 农 、 林 、 
牧 业 的 产值 中 ， 又 有 不 同 。 广 州 市 由 于 工业 的 发 展 ， 同 时 也 刺激 了 对 农产品 的 需求 ， 而 
且 土 地 面积 比较 宽广 ， 所 以 使 用 其 他 的 土地 来 发 展 农 、 林 、 牧 业 ， 因 此 在 农 、 林 、 牧 业 
的 产值 中 ， 广 州 市 的 得 分 也 是 比较 高 的 。 但 是 和 广州 市 不 同 ， 东 莞 市 、 佛 山 市 和 深圳 市 
由 于 大 部 分 已 经 城市 化 ， 没 有 充足 的 土地 面积 来 发 展 农 、 林 、 牧 业 ， 排 名 就 相对 靠 后 ， 
深圳 在 此 方面 尤为 突出 。 所 以 ， 在 综合 排名 中 ， 广 州 市 处 于 总 排名 的 第 一 名 ， 佛 山 市 排 
在 第 二 名 ， 东 莞 市 排 在 第 三 名 ， 而 深圳 市 则 明显 落后 于 其 他 城市 。 

而 成 名 、 中 山 、 珠 海 和 江门 市 则 在 农 、 林 、 牧 业 产 值 中 表现 很 优秀 。 这 是 因为 这 些 
地 区 地 处 比较 偏僻 ， 环 境 比 较 优 美 ， 林 业 和 牧 业 发 展 也 相对 较 好 ， 由 此 也 带 来 了 旅游 业 
的 发 展 。 广 东 的 这 些 地 区 特别 适合 荔枝 和 龙眼 生长 ， 由 此 也 带 来 了 丰厚 的 创收 。 因 此 ， 
在 综合 排名 中 ， 这 些 地 区 的 排名 相对 靠 前 。 


案例 分 析 : 国内 各 地 区 工资 水 平 的 多 维 标 度 分 析 及 R 操作 


工资 水 平 问题 是 个 收入 问题 ， 收 入 问题 不 仅 有 收入 差距 的 问题 ， 还 有 收入 水 平 的 问 
题 。 当 前 大 多 数 中 国 老百姓 的 收入 来 源 是 劳动 收入 ， 其 劳动 报酬 即 工资 增长 得 快 不 快 ， 
工资 水 平 高 不 高 ， 目 然 成 为 大 家 十 分 关心 的 问题 ， 特 别 是 近年 来 物价 飞涨 ， 工 资 的 水 平 
更 是 引起 人 们 的 关注 。 

改革 开放 以 来 ， 我 国 经 济 飞 快 发 展 ， 但 区 域 发 展 不 平衡 ， 东 、 西 部 两 极 分 化 ， 东 部 
沿海 地 区 经 济 比较 发 过， 西部 地 区 发 展 比较 缓慢 。 各 地 区 经 济 发 展 水 平 的 高 低 必 然 在 工 
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资 水 平 上 表现 出 来 。 因 此 ， 判 定 一 个 地 区 工资 水 平 的 高 低 ， 不 仅 能 反映 出 当地 经 济 的 发 
展 水 平 ， 人 民 的 生活 水 平 ， 还 能 给 国家 的 宏观 经 济 政策 的 确定 提供 一 定 的 参考 。 

一 、 数 据 管 理 

要 对 国内 各 地 区 的 工资 水 平 进 行 判 别 分 析 ， 首 先 要 选取 适当 的 指标 。 由 于 我 国 的 经 
济 为 多 种 所 有 制 经 济 共同 发 展 ， 企 业 性 质 种 类 较 多 。 本 例 选 择 九 个 主要 的 单位 作为 指标 ， 
这 些 指 标 尽 可 能 考虑 到 影响 工资 水 平 的 各 个 方面 ， 并 适合 所 采用 的 分 析 方 法 。 

数据 涉及 九 个 变量 : 


ы idiom 


Bt M M M 


X :国有 单位 工资 (元 ) ; 
: 城镇 集体 单位 工资 (Jú); 


股份 合作 单位 工资 〈 元 ) ; 


: 联营 单位 工资 (26); 

: 有 限 责 任 单位 工资 〈 元 ) ; 
: 和 股份 有 限 公 司 工资 〈 元 ) ; 
: 其 他 工资 (70); 

: 港澳 台 工 资 (Jú); 

x 


外 商 投资 单位 工资 (元 )。 


其 中 级 别 为 1 的 代表 工资 水 平 较 高 ， 级 别 为 2 的 代表 中 等 工资 水 平 ， 级 别 为 3 的 代 
表 工 资 水 平 较 低 。 本 例 收集 2006 年 的 20 个 地 区 的 工资 ， 如 图 所 示 。 (数据 来 源 : 《2007 
T —— 
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二 、R 语言 操作 

І. яла | 

选中 саѕе12 中 的 数据 并 复制 ， 然 后 在 R 编辑 器 中 执行 case12 = read. table(" clipboard" , 
header =T), 


12 £ AE X MDS Z R 4&8 Siez 


2. 计算 过 程 及 结果 分 析 
计算 过 程 及 结果 如 图 12 -2 Br. 


x" чта a" ап 4А 一 - -mr [won ueni o m rom, mm meae $ — ^w e» a ~ eu у» --- - . - " T wt EE 
CI IEC Ë RES: I 
l Lx 12217 


> library (A35) 
(a 2), k=2] ;mds 
tial lue n == 
final den 5.233985 
verged 


) 
abelse«rovnames (casel12)) 


|mm 8507 513. ° 
Ef -9382 -9938. 


"ul p» 22 

» 3 ,11 

> =a 71,2) 

> plot (х, apl Íme (bt, v=0, lt — 
c labelserownames(casel2)) 


- ———— 9 MÀ— t MÀ á———  — a Mi — 一 一 


北京 、 上 海 、 浙 江 跟 其 他 地 区 的 差异 非常 大 。 
山东 、 江 苏 处 在 上 升 地 位 ， 而 其 他 地 区 之 间 的 差异 相对 要 小 些 。 
由 标 度 图 可 以 大 致 了 解 我 国 各 地 区 的 工资 水 平 情况 。 


案例 分 析 题 

从 给 定 的 题目 出 发 ， 按 内 容 提 要 、 指 标 选取 、 数 据 搜 集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 

1. 对 世界 主要 国家 综合 竞争 力 分 析 与 评价 进行 多 维 标 度 分 析 。 

2. 对 亚洲 国家 和 地 区 的 经 济 发 展 和 科教 文 卫 水 平 进行 多 维 标 度 分 析 。 

3. 评价 2010 年 我 国 31 个 省 、 市 、 自 治 区 的 经 济 效 益 。 

4. 对 我 国 2007 年 城市 居民 生活 费 支出 进行 多 维 标 度 分析 。 

5. 对 我 国 31 个 省 、 市 、 自 治 区 工业 企业 经 济 效益 作 综合 评价 〈( 以 2010 年 以 后 的 数 
据 为 据 ) 。 | 

6. 对 我 国 31 个 省 、 市 、 月 治 区 农业 发 展 状况 作 综合 评价 〈 以 2010 年 以 后 的 数据 为 据 ) 。 

7. 考察 我 国 各 省 市 社会 发 展 综合 状况 〈 以 2010 年 以 后 的 数据 为 据 ) 。 

8. 对 2010 年 度 中 国 各 地 区 电信 业 发 展 情况 作 比 较 分 析 。 

9. 对 我 国 31 个 省 、 市 、 自 治 区 零售 物价 指数 进行 考察 。 


思考 练习 题 
一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 
1. 简 述 多 维 标 度 法 的 基本 思想 。 


20. азата 


2. 简 述 多 维 标 度 法 的 计算 步骤 。 

3. 试 解释 样本 间 相 似 性 的 含义 。 

4. 给 定 5 个 点 两 两 之 间 的 距离 如 下 : 

] 2 3 4 5 
Iro 
2110 0 
313 25 0 
412 24 1 O 
5111 23 2 1 O 

求 它 的 拟 合 构造 点 ， 并 说 明 它 是 否 属 欧 氏 型 。 

二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) | 

1. 编写 计算 思考 题 4 的 R 语言 计算 程序 。 

2. 基于 多 维 标 度 的 原理 ， 编 写 求解 多 维 标 度 的 R 语言 程序 。 

3. 2005 年 度 广东 省 社会 经 济 发 展 水 平分 析 。 

对 城市 的 社会 经 济 发 展 水 平 进行 评价 是 行政 人 员 、 投 资 者 和 普通 市 民 的 关注 中 心 之 一 。 
社会 经 济 发 展 水 平 的 评价 必须 从 两 方面 考虑 : 首先 是 对 经 济 水 平 的 评价 ， 也 可 以 说 是 对 物 
质 文 明 建设 进行 评价 ;其 次 是 对 精神 文明 建设 的 评价 ， 这 包括 教育 、 文 化 等 因素 。 

本 案例 一 共 采 取 6 "RES, Х,: 人 均 地 区 生产 总 值 (00). X,: 居民 人 均 可 支配 收入 
(20). Х,: 居民 人 均 消 费 支 出 (元 )、Xs: 人 均 博 物 馆 数 ( 所 / 百 万 人 )、Xs: 人 均 公共 
А1 (AJA), Xe: 人 均 文 化 艺术 馆 数 (所 / 百 万 人 )。 其 中 ， 居 民 消 费 是 指 常 
住 住户 对 货物 和 服务 的 全 部 最 终 消 费 支出 ， 它 除了 常住 住户 直接 以 货币 形式 购买 的 货物 
和 服务 的 消费 之 外 ， 还 包括 以 其 他 方式 获得 的 货物 和 服务 的 消费 ， 即 单位 以 实物 报酬 及 
实物 转移 的 形式 提供 给 劳动 者 的 货物 和 服务 ; 住户 生产 并 由 住户 自己 消费 的 货物 和 服务 ， 
其 中 的 服务 仅 指 住户 的 自 有 住房 服务 和 付 酬 的 家 庭 服务 ; 金融 机 构 提 供 的 金融 媒介 服务 ; 
保险 公司 提供 的 保险 服务 。 人 均 博 物 馆 数 、 人 均 公共 图 书馆 数 和 人 均 文化 艺术 馆 数 由 单 
位 总 数 除 以 各 市 的 人 口 总 数 得 到 。 具 体 数据 见 下 表 。 


2005 年 广东 省 各 市 社会 经 济 发 展 水 平 指标 


城市 X, X, X, X, X, X, 
广州 53 809 18 287.24 14 468.24 3. 60 1. 60 1.33 
深圳 | 60 801 28 665.25 21 188. 84 6. 60 4. 40 3. 30 
珠海 45 284 18 907.73 14 323.66 2.24 3.35 3.35 
汕头 13 196 12 229. 17 9 505. 66 1. 02 1. 63 1. 22 
佛山 41 266 17 680.10 14 485.61 1. 69 1. 69 1. 41 
韶关 11 708 10 908. 36 8 112. 64 2. 82 3. 14 3. 14 
河源 7 488 8 234. 21 6 543. 22 1.78 0. 59 1. 78 
梅州 7 666 8 842. 84 6 757. 02 1. 60 2. 00 1. 60 
惠州 21 896 14 884.00 12 931. 00 1. 68 1. 68 1. 68 
汕尾 7 608 8 311. 00 7 164. 00 1.27 1. 27 1.27 
L2 33 263 22 881.80 21 767. 78 2.41 1.21 1.21 
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2. 

( 续 上 表 ) 

城市 X, X, X; X, X, X, 

中 山 36 207 17 255.00 14 288. 00 1.42 0. 71 2. 84 

江门 19 636 12 902. 50 9 993. 48 2. 33 1. 55 1. 81 

阳江 12 758 8 378. 20 6 875.91 0. 76 1.51 1.51 

湛江 9 899 9 867. 36 7 669. 84 0. 84 0. 98 1. 26 

茂名 13 934 8 241. 21 6 350. 38 0. 74 0. 74 0. 74 

ABE 12 315 10 097. 20 7 416. 65 2.02 2.02 2. 02 

清远 9 070 9 214. 60 7 294. 93 2. 29 2. 29 2.03 

潮州 11 422 8 946. 00 8 199. 00 1. 60 1. 20 1. 20 

揭阳 7 533 9 192. 00 7 776. 00 0. 82 0. 98 0. 82 

云浮 9 174 8 637. 85 6 985. 27 1.90 0. 76 1. 90 
试 对 该 数据 进行 多 维 标 度 分 析 。 


4. 我 国 各 地 区 2006 年 可 持续 农业 综合 评价 。 


可 持续 农业 , 按 其 字面 解释 是 维持 或 延续 农业 生产 力 , 农业 可 持续 发 展 就 是 将 农业 资 
源 开发 与 长 期 的 资源 保护 紧密 结合 起 来 ,使 农业 资源 得 到 永 续 利 用 。 然 而 , 随 着 农村 社 
会 、 经 济 的 迅速 发 展 和 工业 化 、 城 市 化 进程 的 加 快 , 农业 耕地 锐 减 , 农村 生态 环境 恶化 ， 
农村 劳动 力 素质 下 降 , 种 种 问题 严重 限制 地 区 农业 的 可 持续 发 展 。 在 此 以 我 国 2006 年 各 
省 市 的 数据 为 依据 ， 对 我 国 的 农业 可 持续 发 展 状 况 作 定性 和 和 定量 分 析 。 

下 面 从 经 济 、 社 会 和 环境 的 角度 选取 七 个 不 同 的 指标 进行 分 析 研 究 。 


经 济 
”环境 


XX 一 一 农业 机 械 总 动力 (万 千瓦 ) 
X, 一 一 有 效 灌溉 面积 ( 千 公 顷 ) 

和 一 一 农用 化 肥 使 用 量 (万 吨 ) 

X, 一 一 盐 碱 耕 地 改良 面积 (FA) 


:一 一 投入 农业 的 资金 总 额 〈( 亿 元 ) 
和 一 一 农村 家 庭 劳 动力 文化 状况 (初中 以 上 百分比 ) 
和 一 一 人 均 农 产品 (粮食 、 肉 、 蛋 、 奶 ) 占有 量 (公斤 ) 


因子 分 析 法 通过 借助 多 元 统计 分 析 中 因子 分 析 的 具体 方法 来 解决 指标 体系 综合 评价 
中 权 数 的 确定 等 问题 。 其 基本 思想 是 通过 研究 众多 变量 之 间 的 内 部 依赖 关系 ， 探 求 观测 
数据 的 基本 结构 ， 并 用 少数 几 个 假象 变量 ( 即 因 子 ) 来 表示 这 种 结构 。 这 些 因 子 能 够 反 
映 原来 众多 的 观测 变量 所 代表 的 主要 信息 ， 并 解释 这 些 变量 之 间 的 相互 依存 关系 。 
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2006 年 我 国 各 地 区 农业 可 持续 发 展 的 主要 经 济 指标 


地 区 
北京 
天 津 
河北 
山西 
内 蒙古 
HT 


і 
H 


黑龙 江 
上 海 
江苏 
浙江 
安徽 
福建 
江西 
山东 
河南 
湖北 
湖南 
广东 
广西 
海南 
重庆 
Vu Jt] 
SEM 
云南 
西藏 
陕西 
甘肃 
青海 
宁夏 
新 疆 


试 对 该 数据 进行 多 维 标 度 分 析 。 


X, 
337. 71 
611.94 

8 485. 80 
2 288. 70 
1 922. 00 
1 918. 10 
1 471. 10 
2 234. 00 
96. 46 

3 135. 30 
2 111. 30 
3 963. 80 
999, 99 

1 781. 30 
9 199. 30 
7 934. 20 
2 057. 40 
3 189. 90 
1 898. 40 
1 909. 70 
298. 70 
775. 96 
2 181. 70 
I 011. 50 
1 666. 10 
23]. 00 

1 430. 10 
1 406. 90 
317. 80 
562. 17 

1 121. 00 


X, 
181. 5 
355.2 
4 547.8 
I 088. 
2 702. 
1 527. 
I 613. 
2 394. 

237. 
3 817. 
] 417. 
3 330. 

949. 
I 831. 
4 790. 
4 864. 
2 064. 


618. 
2 508. 
711. 
1 485.4 
162. 6 
1 298. 8 
1 030. 4 
176. 5 
423. 5 
3 204. 3 


QN Q — Q 00 00 ь с — © + - 0 -) ыз 一 一 t2 © 


X, 


X, 

0. 00 
210. 44 
838. 90 
211. 28 
305. 41 
305. 49 
137. 17 
196. 85 
28. 63 
701. 29 
2.94 
101. 86 
40. 15 
0. 00 
945. 29 
698. 01 
-3.35 
0. 00 
0. 00 
101. 56 
0. 00 
0. 00 
0. 33 
0. 00 
5. 08 
0. 17 
59. 25 
66. 31 
9. 94 
92. 03 
973. 62 


X, 


35 316. 38 


32 322. 58 
132 751. 93 
78 521. 39 
111 804. 04 
267 293. 68 
184 360. 94 
141 536. 10 
24 680. 79 
114 979. 51 
162 176. 58 
113 191.94 
99 070. 77 
97 162. 83 
159 824. 97 
134 821. 95 
107 259. 14 
128 825. 62 
64 854. 00 
61 091. 57 
39 856. 00 
9] 837. 75 
145 225. 76 
48 919. 36 
78 583. 41 
17 588. 00 
105 867. 68 
54 716. 58 
34 303. 18 
56 400. 87 
62. 706. 42 


X, 
92. 58 
79. 78 
71.99 
75. 52 
63. 58 
76. 50 
65. 20 
71. 04 
80. 86 
70. 79 
62. 20 
64. 17 
60. 74 
62. 76 
76. 37 
74. 89 
67. 69 
66. 16 
70. 72 
A 72 
70. 21 
56. 67 
60. 26 
47. 23 
44. 00 

4. 07 
70. 12 
52. 50 
36. 14 
46. 97 
55.32 


一 一 


X, 
157.7 
271.4 
582.3 
351.8 
107.3 
569. 4 
097. 3 
001. 1 

95.2 
459. 8 
215. 3 
504. 5 
268. ] 
476. 7 
578. 6 
615. 0 
463. 4 
523.4 
199, 0 
371.4 
259. 6 
499, 7 
498. 4 
358. 8 
420. 5 
515. 1 
360. 2 
373. 2 
268. 6 
659. 2 
601.7 
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【 目的 要 求 】 要 求 了 解 综合 评价 方法 的 目的 和 基本 思想 ， 以 及 综合 评价 分 析 的 实际 意 
L; 掌握 综合 评价 中 指标 体系 的 构建 方法 和 基本 原则 。 

【教学 内 容 】 综合 评价 的 基本 概念 ; 常用 的 综合 评价 方法 ; 综合 评价 方法 的 综合 应 用 
及 注意 问题 ; R 语言 中 有 关 综 合 评价 的 函数 的 编制 。 


13.1 综合 评价 的 基本 概念 


评价 是 人 类 社会 中 的 一 项 经 常 性 的 、 极 为 重要 的 认识 活动 。 在 现实 生活 中 ， 对 一 个 
事物 的 评价 常常 要 涉及 多 个 因素 或 者 多 个 指标 ， 评 价 是 在 多 个 因素 相互 作用 下 的 一 种 综 
合 判断 。 例 如 ， 要 判断 哪个 企业 的 绩效 好 ， 就 得 从 若干 个 企业 的 财务 管理 、 销 售 管理 、 
生产 管理 、 人 力 资 源 管 理 、 研 究 与 开发 能 力 等 多 个 方面 进行 综合 比较 ; 要 判断 广东 省 哪 
个 城市 的 知识 产权 发 展 得 好 ， 就 得 从 全 省 各 个 城市 的 专利 发 展 情况 、 商 标 发 展 情况 、 版 
权 发 展 情况 、 知 识 产权 其 他 方面 的 发 展 情况 等 多 个 方面 进行 综合 比较 ， 等 等 。 因 此 可 以 
这 样 说 ， 几 乎 所 有 的 综合 性 活动 都 可 以 进行 综合 评价 ， 而 且 不 能 只 考虑 被 评价 对 象 的 某 
一 个 方面 ， 必 须 全 面 地 从 整体 的 角度 对 被 评价 对 象 进 行 评价 。 

多 指标 综合 评价 方法 具有 以 下 特点 : 包含 若干 个 指标 ， 分 别 说 明 被 评价 对 象 的 不 同 
方面 ; 评价 方法 最 终 要 对 被 评价 对 象 作出 一 个 整体 性 的 评判 ， 用 一 个 总 指标 来 说 明 被 评 
价 对 象 的 总 体 水 平 。 


13.2 综合 评价 中 指标 体系 的 构建 


这 是 综合 评价 法 的 出 发 点 。 在 综合 评价 中 ,首先 要 根据 所 要 解决 的 问题 ， 确 定 综合 
评价 目的 。 重 点 解决 为 什么 要 综合 评价 ， 应 综合 评价 事物 的 哪些 方面 ， 达 到 什么 目的 等 。 
只 有 目的 明确 ， 才 有 可 能 顺利 解决 所 要 解决 的 问题 。 


13.2.1 选择 并 构建 综合 评价 指标 体系 


这 是 综合 评价 法 的 关键 。 选 择 指 标 构建 评价 指标 体系 ， 必 须 以 综合 评价 目的 为 依据 ， 
对 所 要 考察 的 事物 进行 认真 分 析 ， 寻 找 出 影响 评价 对 象 的 因素 ， 从 中 选 出 若干 主要 因素 ， 
构建 成 综合 评价 指标 体系 。 

在 多 指标 综合 评价 中 ， 评 价 指标 体系 的 构建 是 最 重要 的 问题 ， 是 综合 评价 能 否 准确 
反映 全 面 情况 的 前 提 ， 如 果 评 价 指标 选择 不 当 ， 再 好 的 综合 评价 方法 也 会 出 现 差错 ， 其 
至 完全 失败 。 因 此 ， 选 择 并 构建 综合 评价 指标 体系 应 遵循 以 下 几 项 原则 : 

(1) 系统 全 面 性 原则 。 例 如 ， 在 经 济 社会 发 展 水 平 的 评价 中 ， 综 合 评价 指标 体系 必 
须 能 够 较 全 面 地 反映 经 济 社会 发 展 的 综合 水 平 ， 指 标 体系 应 包括 经 济 水 平 、 科 技 进步 、 
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社会 发 展 和 生态 环境 的 各 个 主要 方面 内 容 。 除 了 设置 上 述 指 标 外 ， 还 应 考虑 设置 与 之 关 
系 密切 的 经 济 结构 、 人 口 素质 、 居 民 物 质 生活 水 平和 自然 资源 等 指标 。 

(2) 稳定 可 比 性 原则 。 综 合 评价 指标 体系 中 选用 的 指标 既 要 有 稳定 的 数据 来 源 ， 又 
要 适应 我 国 实 际 ， 指 标的 口径 包括 指标 的 时 间 长 度 、 计 量 单位 、 内 容 含义 ， 必 须 一 致 可 
比 ， 才 能 保证 评估 结果 的 真实 、 客 观 和 合理 。 

(3) 简明 科学 性 原则 。 在 系统 全 面 的 基础 上 ， 尽 量 选 择 具 有 代表 性 的 综合 指标 ， 要 
避免 选择 含义 相近 的 指标 。 指 标 体系 的 粗细 也 必须 适宜 ， 指 标 体 系 的 设置 应 具有 一 定 的 
科学 性 ， 做 到 简明 科学 。 

(4) 灵活 可 操作 性 原则 。 综 合 评价 指标 体系 在 实际 应 用 中 应 具有 一 定 的 灵活 性 ， 以 
方便 全 国 各 地 区 不 同 发 展 水 平 、 不 同 层 次 评价 对 象 的 操作 使 用 。 各 个 指标 的 数据 来 源 渠 
道 要 畅通 ， 要 具有 较 强 的 操作 性 。 图 13 -1 是 构建 指标 体系 的 树 状 目标 结构 体系 图 。 
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图 13-1 树 状 目标 结构 体系 图 


【 例 13 -1】 广 东 省 知识 产权 综合 评价 指标 体系 。 

为 了 全 面 反 映 广东 省 各 地 区 的 专利 发 展 情况 ， 进 一 步 了 解 地 区 差异 对 专利 发 展 情况 
的 影响 ， 有 必要 根据 各 地 区 专利 发 展 情况 的 相似 性 进行 分 类 研究 。 在 兼顾 数据 易 收 集 性 
的 基础 上 ， 本 案例 选取 了 以 下 19 个 评价 指标 〈 见 表 13 - 1) 。 我 们 设 定 专利 评价 指标 体 
系 主要 包括 两 方面 的 内 容 : 

(1) 专利 发 展 情况 指标 ， 主 要 反映 广东 省 各 地 区 专利 申请 与 授权 各 个 方面 的 数量 
情况 。 
1) 发 明 专 利 申 请 量 指标 ， 反 映 广东 省 各 市 发 明 专利 申请 的 数量 与 结构 ， 包 括 发 明 专 
利 申请 量 、 实 用 新 型 专利 申请 量 、 外 观 设计 专利 申请 量 。 

2) 专利 授权 情况 指标 ， 反 映 广 东 省 各 市 专利 申请 的 质量 与 专利 授权 的 结构 ， 包 括 发 
明 专 利 授权 量 、 实 用 新 型 专利 授权 量 、 外 观 设计 专利 授权 量 。 

(2) 专利 执法 情况 指标 ， 反 映 广东 省 各 市 专利 执法 的 种 类 与 专利 执法 的 质量 ,包括 
专利 纠纷 案件 受理 、 专 利 纠纷 案件 结案 、 查 处 假冒 专利 立案 、 查 处 假冒 专利 结案 、 查 处 
冒充 专利 立案 、 查 处 冒充 专利 结案 以 及 涉外 案件 受理 。 
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Ж 13-1 知识 产权 综合 评价 指标 体系 


二 级 指标 в 


Bi 发 明 专 利 授权 量 
Bi, 实 用 新 型 专利 授权 量 
A, Bi 外 观 设计 专利 授权 量 
专利 申请 与 授权 量 Bi 发 明 专 利 申请 量 
Bi; 实 用 新 型 专利 申请 量 
Be 外 观 设计 专利 申请 量 


B, 发 明 专 利 申请 量 增 速 
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Á B。 外 观 设计 专利 申请 量 增 速 
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Bs 实用 新 型 专利 授权 量 增 束 

Bw 外 观 设计 专利 授权 量 增 束 

Bs 专利 纠纷 案件 受理 

By 专利 纠纷 案件 结案 

8B, 查处 假冒 专利 立案 

Bw 查处 假冒 专利 结案 

B;s 查 处 冒充 专利 立案 

Bw 查处 骨 充 专利 结案 


By 涉外 案件 受理 
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13.2.2 ”确定 观测 指标 的 量 纲 方法 


根据 综合 评价 指标 计算 过 程 的 不 同 特点 ， 确 定 观测 指标 的 量 纲 方 法 大 致 可 分 为 两 类 : 
一 类 为 有 量 纲 指标 评价 方法 ， 主 要 是 总 分 评定 法 ; 另 一 类 为 无 量 纲 指标 评价 方法 ， 主 要 
包括 指数 化 变换 方法 、 功 效 系数 变换 方法 等 。 

一 、 有 量 纲 指 标 评价 方法 

.主要 采用 总 分 评定 法 ， 或 称 综合 计 分 法 。 总 分 评定 法 的 步骤 可 以 归纳 如 下 : 

(1) 根据 评价 的 目的 和 评价 对 象 的 特点 ， 选 择 若 干 个 评价 项 目 或 评价 指标 ， 组 成 评 
价 指标 体系 。 

(2) 确定 各 项 目 或 各 指标 的 评价 标准 和 计 分 方法 。 常 用 的 评分 法 有 等 级 量化 处 理 。 

(3) 综合 评判 结果 ， 把 各 指标 (或 各 项 目 ) 得 分 相 加 ， 即 得 该 评价 对 象 的 总 分 。 

【 例 13 -2】 某 公司 对 所 属 企业 的 管理 人 员工 作 质量 的 评判 项 目 包 括 组 织 能 力 、 管 理 
水 平 、 业 务 知识 和 廉洁 奉公 精神 四 个 项 目 ， 并 对 各 项 目的 评分 标准 规定 为 四 个 等 级 : 很 
好 (5 分 ) ， 较 好 (4 分 ) ,一 般 (3 分 ) ， 较 差 (2 分 ) 。 现 组 织 100 名 职工 对 H 管理 人 
员 进 行 评分 ， 其 各 项 目的 票数 如 表 13 -2 所 示 。 


表 13 -2 100 名 职工 对 H 管理 人 员工 作 质 量 评分 结果 表 


TEIS 


很 好 Ww (3 分 )_ иё 029) 
e 得 票数 ms um amr una ans 


H 管理 人 员 的 组 织 能 力 得 分 : 0.45 х5 +0.40 x4 +0.15x3+0x2=4.3 分 

H 管理 人 员工 作 质 量 平 均 得 分 : (4.3 +3.8 +3.5 +3.75) 24 215.35 24 23.837 5 分 

二 、 无 量 纲 指标 评价 方法 

观测 指标 的 无 量 纲 化 是 指 通过 某 种 变换 方式 消除 各 个 观测 指标 的 计量 单位 ， 使 其 转 
化 为 统一 、 可 比 的 变换 过 程 。 常 用 的 无 量 纲 化 处 理 方法 有 以 下 几 种 : 

1. 标准 化 变换 方法 


€. — X. 
z, =— mwiñi=1l,2,--- n, j=1,2,.…,m 
5j 


组 织 能 力 
管理 水 平 
业务 知识 

廉洁 奉公 精神 


Ж, EWW, х, 是 均值 ，s,; 是 标准 差 。 经 过 标准 化 变换 后 的 指标 z;， 其 n 个 个 
体 的 均值 为 0， 方 差 为 1。 由 于 标准 差 的 计量 单位 与 观测 值 变量 本 身 的 计量 单位 相同 ， 所 
以 变换 后 的 指标 不 再 具有 计量 单位 。 

2. 规格 化 变换 方法 

2. = 0 "jn 这 里 i=1,2,…,n，j=1,2,…,m 


X imax E Х imin 
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JOB, x 是 观测 值 ，x 38] 个 指标 的 最 小 观测 值 ，x UJ 个 指标 的 最 大 观测 
值 。 经 过 规格 化 变换 ， 消 除了 观测 值 的 计量 单位 ， 变 换 后 的 指标 z 值 都 在 0 与 1 之 间 。 
3. 功效 系数 变换 方法 


х. — x 

Em L (s) ; zs шее к= ... 

z; =—— , 3X 1«Bim1,2,--,n, jx1,2,---,m 
Хов Tis) 


其 中 ，z%; 是 观测 值 ，x., 是 评价 指标 的 不 允许 值 ，x 是 评价 指标 的 满意 值 ， 变 换 后 
的 指标 35% 称 为 功效 系数 。 显 然 ， 若 满意 值 取 为 评价 指标 的 最 大 观测 值 ， 不 允许 值 取 为 评 
价 指标 的 最 小 值 ， 则 功效 系数 变换 方法 与 规格 化 变换 方法 相同 。 

4. 指数 化 变换 方法 


x.. 
z=, Ж і=1,2,---,п, jol12,.m 
iD 


其 中 ，xj 是 观测 值 ，xw 是 评价 标准 值 。 经 过 这 种 变换 ， 既 可 以 消除 评价 指标 的 计量 
单位 ， 又 可 以 统一 其 数量 级 ， 但 并 不 能 消除 各 个 指标 内 部 取 值 之 间 差 异 程度 的 不 同 。 

在 实际 变换 中 ， 人 们 习惯 于 按 百 分 制 对 所 评价 总 体 中 的 各 个 观察 单位 进行 变换 ， 常 
将 上 述 变 换 公式 乘 以 100。 此 外 ， 有 时 为 使 综合 评价 指标 不 出 现 0 值 和 负 值 ， 常 在 变换 公 
式 后 加 上 一 个 常数 项 ， 其 改进 的 无 量 纲 方法 如 下 : 

(1) 标准 化 变换 : 


х. — X. 
z; = 一 一 xb+a 
s 


* 


J 


(2) 规格 化 变换 : 


(3) 功效 系数 变换 : 
NECS 
Х(һу T *(,) 
(4) 指数 化 变换 : 
X. 
z; =— xb*a 
Xn 


13.2.3 综合 评价 指标 的 合成 方法 


评价 指标 的 合成 方法 是 指 将 无 量 纲 化 变换 后 的 各 个 指标 按照 某 种 方法 进行 综合 ， 得 
出 一 个 可 用 于 评价 比较 的 综合 指标 。 合 成 方法 主要 有 总 和 合成 法 、 乘 积 合 成 法 和 混合 合 
成 法 三 种 ， 其 中 常用 的 是 总 和 合成 法 ， 其 公式 有 如 下 两 种 : 
L 简单 算术 平均 法 
210 Е. т] = 
2; ВРУ: Z; = m = iw, 


其 中 , 2, 是 评价 总 体 中 第 i 个 观察 单位 的 综合 评价 值 ，m 是 指标 个 数 。 
2. 加 权 算 术 平 均 法 


m 
z, = > WZ; 
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其 中 ， 由 是 第 7 个 指标 ‚И. 
简单 算术 平均 法 将 不 同 评价 指标 的 重要 性 同等 看 待 ， 但 现实 综合 评价 指标 体系 中 各 
指标 的 重要 性 是 不 同 的 ， 故 应 赋予 不 同 分 量 的 权 数 ， 才 能 准确 地 反映 综合 指标 的 合成 值 。 


13.2.4 确定 评价 指标 的 权 数 


评价 指标 的 权 数 是 指 在 评价 指标 体系 中 每 个 指标 在 多 指标 综合 评价 中 的 重要 程度 ， 
因 各 指标 在 指标 群 中 的 重要 性 不 同 ， 不 能 等 量 齐 观 ， 必 须 客观 地 确定 各 指标 的 权 数 。 权 
数值 的 确定 准确 与 否 直接 影响 综合 评价 的 结果 ， 因 而 ， 科 学 地 确定 指标 权 数 在 多 指标 综 
合 评价 中 具有 举足轻重 的 地 位 。 确 定 评价 权 数 的 方法 有 : 德尔 非法 (又 称 专家 评估 法 )、 
层次 分 析 法 、 强 制 打 分 法 、 主 成 分 分 析 法 、 因 子 分 析 法 和 相关 系数 构 权 法 等 ， 其 中 最 常 
用 的 是 德尔 菲 法 和 层次 分 析 法 。 

一 、 德 尔 菲 法 确定 权重 

德尔 菲 (Deiphi) 是 阿波 罗 神 典 所 在 地 的 希腊 古城 之 名 。 传 说 阿波 罗 是 太阳 神 和 预 
言 神 ， 众 神 每 年 都 到 德尔 菲 集会 以 预言 未 来 。20 世纪 40 年 代 ， 美 国 兰 德 公 司 运 用 德尔 菲 
集会 形式 ， 向 一 组 专家 征询 意见 ， 将 专家 们 对 过 去 历史 资料 的 解释 和 对 未 来 的 分 析 判 断 
汇总 整理 ， 经 过 多 次 反馈 ， 尽 可 能 取得 统一 意见 。 因 此 ， 德 尔 菲 法 也 称 为 专家 评估 法 。 

在 综合 评价 指标 的 权 数 确定 中 ， 为 了 提高 权 数 的 准确 性 ， 往 往 需要 聘请 评价 对 象 所 
属 领 域内 的 专家 对 各 个 评价 指标 的 重要 程度 进行 评定 ， 给 出 权 数 。 一 般 程 序 是 先 由 各 个 
专家 单独 对 各 个 评价 指标 的 重要 程度 进行 评定 ， 然 后 由 综合 评价 人 员 对 各 个 专家 的 评定 
结果 进行 综合 ， 计 算出 平均 数 ， 然 后 反馈 给 各 位 专家 ， 如 此 反复 进行 几 次 ， 使 各 位 专家 
的 意见 趋 于 一 致 ， 从 而 就 可 以 确定 出 各 评价 指标 的 权 数 。 

在 例 13 -2 中 ， 如 用 专家 评估 法 ， 得 出 组 织 能 力 、 管 理 水 平 、 业 务 知 识 和 廉洁 奉公 
精神 四 个 项 目的 权 数 分 别 为 : 0.30. 0.35, 0.25 10. 10, M H 管理 人 员工 作 质 量 的 平均 
得 分 为 : 4.3 x0.30 43.8 x0. 35 43.5 x0.25 +3.75 х0. 10 23. 87 分 。 

二 、 层 次 分 析 法 确定 权重 

层次 分 析 法 计算 过 程 的 核心 问题 是 权 数 的 构造 。 自 1982 年 层次 分 析 法 引入 我 国 以 
来 ， 人 们 不 仅 将 之 应 用 于 各 种 决策 分 析 中 ， 也 用 于 综合 评价 权 数 的 构造 中 。 其 思路 为 : 
建立 评价 对 象 的 综合 评价 指标 体系 ， 通 过 指标 之 间 的 两 两 比较 确定 出 各 自 的 相对 重要 程 
度 ， 然 后 通过 特征 值 法 、 最 小 二 乘法 、 对 数 最 小 二 乘法 、 上 三 角 元 素 法 等 的 客观 运算 来 
确定 各 评价 指标 权 数 。 其 中 ， 特 征 值 法 是 层次 分 析 法 中 最 早 提出 的 、 也 是 使 用 最 广泛 的 
权 数 构造 方法 ， 其 具体 步骤 如 下 : 

1. 构造 判断 矩阵 

通过 对 指标 之 间 两 两 重要 程度 进行 比较 和 分 析 判 断 ， 构 造 判 断 托 阵 。 层 次 分 析 法 在 
对 指标 的 相对 重要 程度 进行 测量 时 ， 引 入 了 九 分 位 的 相对 重要 的 比例 标 度 。 令 4 为 判断 
短 阵 ， 用 以 表示 同一 层次 各 个 指标 的 相对 重要 性 的 判断 值 ， 由 若干 位 专家 来 判定 。 则 有 : 
А = (а;)„„„о 和 矩阵 4 中 各 元 素 ac; 表示 横行 指标 Z; 对 各 列 指标 Z, 的 相对 重要 程度 的 两 两 比 
较 值 。 考 虑 到 专家 对 若干 指标 直接 评价 权重 的 困难 ， 根 据 心理 学 家 提出 的 “人 区 分 信息 
等 级 的 极限 能 力 为 7+2” 的 研究 结论 ， 有 如 下 评分 规则 : 
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Ж 13-3 权重 的 评分 规则 


极端 | 强 列 
с» E K 
m 


四 指标 评价 值 | 9 | 7 


ib. 取 8, 6, 4, 2, 1⁄2, 1⁄4, 1/6, 1/8 为 上 述评 价值 的 中 间 值 。 


根据 判断 矩阵 4 中 指标 两 两 比较 的 特点 ， 设 把 x; 对 % 的 相对 重要 性 记 为 a;， 明 显 地 
有 ai >0,ai =1,а; =1/ai,i=1,2,…,m。 因 此 ， 判断 和 矩阵 A 是 一 个 正 交 和 矩阵， 每 次 判断 
时 ， 只 需要 作 m (m-1) /2 次 比较 即 可 。 


2. 对 各 指标 权 数 进行 计算 
层次 分 析 法 的 信息 基础 是 判断 矩阵 ， 利 用 排序 原理 ， 求 得 各 行 的 几何 平均 数 ， 然 后 
计算 各 评价 指标 的 重要 性 权 数 ， 计 算 公 式 分 别 为 : 


I 


将 各 个 评价 指标 的 重要 性 权 数 用 一 个 向 量 来 表示 ， 即 为 W = (0, w,), EIS 
量 又 称 判断 矩阵 的 特征 问 量 。 

3. 对 判断 和 矩阵 进行 一 致 性 检验 

与 其 他 确定 指标 权重 系数 的 方法 相 比 ， 层 次 分 析 法 的 最 大 优点 在 于 可 以 通过 一 致 性 
检验 ， 保 持 专家 思想 逻辑 上 的 一 致 性 。 其 计算 步骤 为 : 

(1) 计算 判断 矩阵 的 最 大 特征 根 : 


йы жр СЕН 
ті=1 W; 
AF, AW 为 判断 矩阵 4 与 特征 向 量 W RE, BIA: 
Qj, а, t Gim W, 
ш Gn ° а, || W2 
AW = 


а ml а „2 “е UE S. 


70 Ql хт инш 
(2) 计算 判断 矩阵 的 一 致 性 指标 : 


m -1 
(3) 计算 判断 矩阵 的 随机 一 致 性 比率 。 由 一 致 性 指标 CI， 可 以 计算 出 检验 用 的 随机 
一 致 性 比率 CR， 该 检验 指标 的 计算 公式 为 : 
CR == 0. 10 
ERP RI 称 为 判断 矩阵 的 平均 随机 一 致 性 指标 ， 其 值 的 大 小 取决 于 判断 矩阵 中 评价 
指标 个 数 的 多 少 ， 可 查 表 13 -5 Ж. 


表 13 -5 平均 随机 一 致 性 指标 判断 标准 


„||, j 4 |з 56 | 7 | EN 
EB 0 1.35 | 1.42 ETE 


当 随 机 一 致 性 比率 小 于 0. 10 BF, TAAA ERDE REN E SERR, BIORIBBS 
综合 评价 指标 权 数 是 合适 的 。 

【 例 13 -3】 下 面 对 建 立 的 知识 产权 指标 体系 计算 一 级 指标 权重 。 

(1) 构建 判断 矩阵 。 


知识 产权 现状 综合 评价 判断 矩阵 4 
一 
专利 申请 授权 量 А, 
专利 申请 授权 增 速 4， 


知识 产权 执法 А, 


(2) 调用 CICR 函数 ， 可 得 三 种 元 素 的 权重 。 


| 


: > library ( mvstats ) # 需要 调用 包 mvstats 
i>A=c(1,3,7,1/3,1,3,1/7,1/3,1) # 构造 的 判断 矩阵 
|» (A_W = weight( A) ) # A 的 权重 | 
: [1]0.6694 0.2426 0.0879 | 
i» CL CR(A) # 一 致 性 检验 | 
! CI- 0.0035 f ' 
: CR = 0.0061 : 
i la_max = 3. 007 | 
通过 一 致 性 检验 ! | 


; Wi: 0.66942 0. 24264 0.08795 


[nr sp ш шш ш ш шш ш ш шш ш ш шш ш ш шш ш ®ъ шш ш ш шш ш ош шш ш а шш ш ш шш ы ы шш єт ы аш ж от шь ш ® шь ш LZ мыт ъ Щщ 


判断 矩阵 4:， СГ = 0.0035, СК = 0.006 1, A... = 3.007， 通 过 一 致 性 检验 。 
各 指标 权重 依次 为 : 
A. W = (0. 669 42 ,0. 242 64 ,0. 087 95) 
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各 指标 权重 和 一 致 性 指标 值 依次 为 : 


专利 申请 授权 量 | 专利 申请 授权 增 速 | 知识 产权 执法 WEN NEN 


由 于 该 随机 一 致 性 比率 0. 006 1 小 于 0. 10， 所 以 可 认为 上 述 判 断 矩 阵 满 足 一 致 性 要 


13.3 综合 评价 方法 及 其 应 用 


综合 评价 方法 较 多 ， 如 综合 评分 法 、 综 合 指数 法 、 秩 和 比 法 、 层 次 分 析 法 、TOPSIS 
法 、 模 糊 综合 评价 法 、 数 据 包 络 分 析 法 等 几 种 具有 代表 性 的 评价 方法 。 以 下 将 重点 介绍 
综合 评分 法 和 层次 分 析 法 这 两 种 常用 的 方法 。 


13.3.1 综合 评分 法 


综合 评分 法 最 终 总 分 的 计算 可 以 把 各 个 指标 的 得 分 直接 相 加 得 到 一 个 总 分 ， 最 后 根 
据 这 个 最 终 得 分 的 高 低 来 判定 评价 对 象 的 优 沙 。 这 种 方法 的 好 处 是 对 各 个 指标 赋予 同样 
的 权重 来 同等 看 待 ， 省 去 了 确定 指标 权重 的 复杂 步骤 ， 但 这 同时 也 是 它 的 一 个 不 足 之 处 。 
它 不 能 很 好 地 区 分 各 个 指标 的 相对 重要 程度 ， 因 而 常用 的 改进 方法 是 根据 各 个 指标 相对 
重要 程度 的 不 同 赋予 不 同 的 权重 ， 然 后 用 各 个 指标 的 得 分 乘 以 权重 求 得 各 个 指标 对 各 个 
不 同方 案 的 加 权 评 分 ， 每 个 方案 各 指标 加 权 得 分 之 和 除 以 权重 所 得 到 的 商 就 是 加 权 平 均 
分 ， 得 分 最 多 的 方案 就 是 最 佳 方案 。 

【 例 13 -4】 下 面 我 们 对 广东 省 21 个 地 区 专利 发 展 情况 进行 综合 分 析 。 | 

由 于 指标 较 多 ， 我 们 先 取 前 六 个 指标 来 对 广东 省 21 个 地 区 专利 发 展 情况 进行 分 析 。 


表 13 -6 广东 省 21 个 地 区 专利 发 展 数据 
指标 专利 授权 
E NR CERE CENE m ARCA SR 

| TM | 705 | 259 | 315 | 276 | 2375 | 585 | 
| Ki& | 6 | 5 | so | di | 99 | W 
| M3 | 52 | 40 | 159 | 160 | 680 — 
[NX | 4 | w | au | 8 | m | 
河源 | ji j| 25 | 5 | | 2 | 
M a | a | 6. | 3| nB | 
惠州 | 21 | w | 39 | s| 3⁄7 
| we) 5 | 230 | % | a| 4 | 
一 553 
ui 1568 — 192 1 263 


22. 铺 . 多 元 统计 分 析 及 R 语 言 建 模 

( 续 上 表 ) 

ТИ 专利 授权 
HRN, Bi | O Bu | Bs | Be | 


[Bs č | BP | 
шт a | se | 43 | m юш | 32m _ 
[ewm [ат | em [rw | S» [om — 


l. 观测 指标 的 无 量 纲 化 
因为 各 个 指标 的 量 纲 或 数量 级 通常 是 不 同 的 ， 所 以 要 对 各 个 指标 数据 进行 无 量 纲 化 。 
由 于 是 计数 数据 ， 这 里 采用 的 无 量 纲 化 方法 如 下 : 


X. — x. . 
Sij Т jmin _ 
z.- =n. x100 
Ja TA 
jmax jmin 


然后 引进 功效 系数 ， 计 算 各 个 指标 单 向 评价 分 数 ， 


Xo —X.. 
Wen ENS. LÀ At 
z; = — x 60 +40 
x. _ x 


式 中 ; Xi 


第 i 个 地 区 第 j 项 指标 的 实际 数值 ; 
xmw 一 一 第 /项 指标 的 最 大 值 ; 


个 地 区 第 7 项 指标 值 的 无 量 纲 值 。 
这 种 无 量 纲 方法 的 好 处 是 ， 它 不 仅 纵向 上 消除 了 不 同 指标 的 不 同 数量 级 的 影响 ， 还 
能 使 得 横向 上 各 地 区 的 得 分 包含 在 1 至 100 之 间 ， 易 于 比较 ， 计 算 结果 如 下 : 
2， 综 合 得 分 


S, = XWZ,- ут =Z, 
然后 根据 综合 得 分 大 小 进行 排名 ， 这 里 实际 上 相当 于 对 每 一 行 数 据 求 均值 ， 即 权重 
相同 ， 全 为 W, =1/m, 
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和 


#{Е mvstats. xls : d12. 3 中 选取 A1 : G22 区 域 , 然 后 拷贝 
| > B1data = read. table( " clipboard" ,header = T) #B1 组 数据 
> Bl. z 2z data( Bldata) # 数 据 无 量 纲 化 z=(x-max)/( max — min) * 60 +40 


I 
I 
I 
I 
LI 
1 
1 
I 
| 
і 
I 
I 
Ц 
1 
1 
I 
1 
1 
I 
! 
! 
I 
I 
I 
I 
' 
LI 
1 
' 
I 
I 
! 
I 


清远 
潮州 
揭阳 
云浮 


广州 
深圳 
珠海 


B11 


73.47 
100. 00 
42. 95 
42. 42 
40. 62 
40. 00 
41. 09 
40. 95 
40. 19 
41. 28 
40. 76 
41. 90 
46. 23 
40. 00 
41. 00 
40. 62 
40. 19 
40. 00 
40. 33 
40. 67 
40. 33 


B11 
73. 47 
100. 00 
42. 95 
42. 42 
40. 62 
40. 00 
41. 09 
40. 95 
40. 19 
41. 28 
40. 76 
41. 90 
46. 23 


B12 
70. 64 
100. 00 
47.01 
44. 66 
41. 82 
40. 06 
40. 33 
43. 42 
40. 00 
60. 79 
50. 10 
46. 85 
72. 75 
40. 99 
4]. 19 
40. 85 
40. 96 
40. 41 
41. 19 
40. 89 
40. 22 


: > Si = apply( Bl, z,1, mean) 
: > cbind( Bl. z, Si) 


B12 
70. 64 
100. 00 
47. 01 
44. 66 
41. 82 
40. 06 
40. 33 
43. 42 
40. 00 
60. 79 


ВІЗ B14 

70. 36 51. 10 

90. 89 100. 00 

45. 58 41. 61 

55. 02 40. 62 

40. 25 40. 31 

40. 00 40. 00 

40. 45 40. 08 

42. 94 40. 27 

40. 76 40. 07 

69. 97 42. 24 

55. 01 40. 75 

53. 29 40. 78 

100. 00 48. 26 

43. 69 40. 06 

41. 73 40. 42 

40. 67 40. 05 

40. 84 40. 13 

40. 25 40. 04 

47. 46 40. 07 

43. 22 40. 09 

40. 38 40. 08 

# Si 按 行 求 均值 

B13 B14 B15 
70. 36 51. 10 72. 95 
90.89 100.00 100.00 
45. 58 41. 61 47.91 
55. 02 40. 62 45. 77 
40. 25 40. 31 42. 05 
40. 00 40. 00 40. 00 
40. 45 40. 08 40. 28 
42. 94 40. 27 42. 99 
40. 76 40. 07 40. 01 
69. 97 42. 24 62. 85 
55. 01 40. 75 50. 90 
53. 29 40. 78 46. 78 
100. 00 48. 26 86. 45 
43. 69 40. 06 41. 02 


B15 
72. 95 
100. 00 
47.91 
45.77 
42. 05 
40. 00 
40. 28 
42. 99 
40.01 
62. 85 
50. 90 
46. 78 
86. 45 
41. 02 
40. 99 
40. 68 
41. 15 
40.20 
41.29 
40. 92 
40. 04 


фа = ж а = ш = LL Lu uL шш ж . шш а а шш а а шш & Lo ж Lu oz шш = ж шш ol íi ш Áo o ж а ш шш Lil ez Lael ы Lo eos Gu а ш а & ® ш ы шы = Lo н а ..... ...-1.... =... <s’ 


B16 
69. 58 
82. 57 
43.61 
53. 94 
40. 10 
40. 00 
40. 08 
41. 75 
40. 44 
74. 03 
53. 89 
21. ДЭ 
100. 00 
42. T1 
41. 20 
40. 46 
40. 40 
40. 01 
46. 82 
4]. 98 


21 ЕЕ 
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云浮 40.33 40.22 40.38 40.08 40.04 40.04 40.18 
> cbind( Si = Si ‚ri = rank(— Si) ) #rank 排名 ( 求 秩 rank) 
Si ri 
广州 — 68.01775 3 
深圳 95. 57762 1 
珠海 44.77777 8 
汕头 47.07260 6 
韶关 — 40.85965 14 
河源 — 40.01013 21 
梅州 40. 38622 17 
惠州 42.05220 10 
汕尾 40.24630 18 
东莞 58. 527055 4 
中 山 48. 56790 5 1 
江门 46.80983 7 
佛山 — 75.615320. 2 | 
阳江 41.42107 и ! 
洪江 41.08852 13 | | 
茂名 — 40.55428 16 | 
Ak 40.61267 15 : 
清远 — 40.15213 20 
潮州 42.86313 9 | 
; 揭阳 — 4129357 12 : 
i 云浮 ”40.18127 19 


We 


13.3.2 层次 分 析 法 


层次 分 析 法 (analytic hierarchy process， 简 称 AHP 法 ) 是 美国 运筹 学 家 、 匹 效 堡 大 
学 教授 T. L. Saaty 于 20 世纪 70 年 代 提 出 来 的 。 它 是 一 种 对 较为 模糊 或 较为 复杂 的 决策 问 
题 ， 使 用 定性 与 定量 分 析 相 结合 的 手段 作出 决策 的 简易 方法 。 特 别 是 将 决策 者 的 经 验 判 
断 给 予 量化 ， 它 将 人 们 的 思维 过 程 层 次 化 ， 逐 层 比 较 相 关 因 素 ， 逐 层 检 验 比 较 结 果 的 合 
理性 ， 由 此 提供 较 有 说 服 力 的 依据 。 很 多 决策 问题 通常 表现 为 一 组 方案 的 排序 问题 , 这 类 
问题 就 可 以 用 AHP 法 解决 。 近 几 年 来 ， 此 法 在 国内 外 得 到 了 广泛 的 应 用 。 

层次 分 析 法 的 应 用 首先 需 分 层 。 所 谓 分 层 ， 就 是 根据 研究 目标 之 间 的 内 在 联系 和 因 
果 关 系 ， 逐 步 分 解 为 多 层次 的 目标 体系 。 层 次 的 树 状 目标 结构 体系 如 图 13 -3 所 示 。 
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W, W, W. 
NE UN 
W, I F L^ Wa Wa Wa W. 1 W., W... 
Bu |в, |в, |в. |в. | Bs | 1 1 UL в. ISI 


图 13 -3 层次 的 树 状 目标 结构 体系 


设 4 为 目标 层 ，4, 为 准则 层 ，B 为 方案 层 ，W;,，W; 分 别 为 第 二 、 三 层 的 权 数 ， 并 
满足 
Èw. =1, ХЮ, =1 
2Z, 为 第 i 个 目标 第 j 方 案 的 属性 值 向 量 的 分 量 。 利 用 公式 
S,= XV, | 
对 目标 由 低层 到 高 层 进行 计算 ， 由 此 判断 各 方案 的 优 劣 ，$, 值 越 大 ， 该 方案 就 越 优 。 


[5113 -5】 下 面 应 用 层次 分 析 法 对 专利 数据 进行 进一步 分 析 。 
1. 确定 权重 


专利 申请 与 授权 量 的 判断 矩阵 В, 如 下 表 所 示 。 


|i»Bl-c(l, 4, 5, 3, 6, 7, 
1/4. d. 32. 012,3, 44, 
: 1/5, 1⁄2, 1 Dux 3 
i О а Go 4 7$ 
' 1⁄6, 1⁄3, 1⁄2, 1⁄4, 1, 2, 
! 1⁄7, 1⁄4, 1⁄3, 1⁄5, 1⁄2, 1) 
1 


I 
I 
' > Bl_W = weight( Bl) | 
;> CI CR(B1) ; 
! CI= 0.0324 ! 
: CR = 0.0262 | 
i la тах = 6.1622 
: 通过 一 致 性 检验 ! 


' Wi: 0.4434 0.1443 0.0919 0.2223 0.0589 0.0391 


' 
DID тш ош чш ж от жш шош шш тош © ж от шш жож жш жож жш жож тш ж от шш т ож ты ж т тш т жоюш ж ож © ж ож шш ж ож тш ш ш жш т ош шш т т тш ® т эш в ы ат ж ож о 


B6 @# -_ 多 元 统计 分 析 及 R 语 言 建 模 


ЖЇН ЕРЕ B,: CI = 0.032 4,CR = 0.026 2 „А, = 6.162 2 ,通过 一 致 性 检验 。 
各 指标 权重 依次 为 : 
B1_W = (0.443 4 ,0. 144 3,0. 091 9 ,0. 222 3,0.058 9 ,0.039 1) 
2. 计算 综合 得 分 
得 到 各 指标 的 权重 后 还 不 能 直接 计算 它们 的 综合 得 分 ， 把 各 项 指标 的 指标 值 无 量 纲 
化 后 ， 采 用 线性 综合 评价 法 即 把 各 项 指标 的 评价 分 值 乘 以 相应 权重 就 可 以 得 出 各 个 地 区 
的 综合 得 分 值 。 具 体 的 计算 公式 是 : 
S. = 50,2, 
式 中 : 5 一 一 第 i 个 地 区 的 综合 得 分 值 ; 
2Z, 一 一 第 i 个 地 区 第 j 项 指标 值 的 评价 分 值 ; 
WW 一 一 第 j 项 指标 的 权重 。 


| 


:>S rank(Bl Z,Bl W) 44182 АЖ 
i Si . 


n ' 
广州 67.613899 2 
深圳 98.47164 1 | 
珠海 — 43.791906 8 i 
汕头 44. 14644 6 ' 
韶关 40.75002 13 | 
河源 — 40.00477 21 i 
梅州 40. 60781 15 
惠州 41.48492 9 : 
ШЕЕ 40.18476 19 
东莞 49.49115 4 | 
ril 44.52158 
iti] 44.000047 7 ] 
佛山 59.91549 3 
阳江 40. 65874 14 ' 
湛江 40.96837 11 
茂名 — 40.52322 16 : 
Вс 40.40832 17 
清远 40. 09991 20 | 
潮州 41.360904 10 : 
揭阳 40.86679 12 i 
云浮 40.23124 18 


本 机 


68.017 75 
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^ 


58. 527 05 


59. 915 49 
40. 658 74 


NE NN 
ME NE 
D | 
[oo | 
| SK | 4626 | 15 _ 
0 
NEC 
O? 
O9 | 


- 


从 表 13 -7 中 可 以 看 出 ， 两 种 计算 结果 还 是 有 一 定 差别 的 ， 因 为 综合 评分 法 用 的 是 
等 权 ， 而 层次 分 析 法 给 出 了 一 定 的 权重 。 

对 每 个 判断 矩阵 分 别 调用 CI CR 郴 数 ， 可 以 检验 其 一 致 性 和 得 到 各 个 指标 的 权重 值 。 

申请 专利 与 授权 量 的 增 速 判断 矩阵 B, 如 下 表 所 示 。 


一 一 


BB W. - _ 多 元 统计 分 析 及 R 语 言 建 模 
i» B2 2 c(1,4,5,7,8,9,1/4,1,2,4,5,6,1/5,1/2,1,3,4,5,1/7 ,1/4,1/3,1,2,3, 1/8, 1/5, 1/4 i 
! 1/2,1,2,1/9,1/6,1/5 ,1/3,1/2,1) : 
: > B2. W = weight( B2) 

i» B2 W 

: [1]0.4976 0.2119 0.1443 0.0690 0.0460 0.0312 
;> CL CR(B2) 

i Cl- 0.0505 

| CR = 0.0407 

. la_max = 6. 2526 

' 通过 一 致 性 检验 ! 


PE 


| 


判断 矩阵 B,: CI = 0.050 5, CR = 0.040 7, A, = 6.252 6， 通 过 一 致 性 检验 。 
各 指标 权重 依次 为 : 
B2_ W = (0.497 6 ,0.211 9 ,0. 144 3 ,0. 069 0 ,0. 046 0 ,0.031 2) 


专利 执法 情况 判断 矩阵 B, i FER o 


I>B3=c(1,5,2,6,2,6,1,1/5,1,1/4,2,1/4,2,0.2,1/2,5,1,5,1,5,1/2,1/6,1/2,1/5,1,1⁄5 ,| 


1,1/6,1/2,4,1,5,1,5,1/2,1/6,1/2,1/5,1,1/5,1,1/6,1,5,2,2,2,6,1) 
i > B3. W = weight( B3) 

! [1]0.2791 0.0565 0.1783 0.0374 0.1727 0.0374 0.2386 

: > CI CR(B3) 

i СІ = 0. 0133 
' CR- 0. 0101 
la max = 7. 08 


通过 一 致 性 检验 ! 


和 


判断 矩阵 В,: CI = 0.013 3, CR = 0.01 01, A... = 7.08， 通 过 一 致 性 检验 。 
各 指标 权重 依次 为 : 

B3 W = (0.279 1,0. 056 5,0. 178 3,0. 037 4,0. 172 7,0. 037 4 ,0. 238 6) 

于 是 我 们 得 到 一 个 完整 的 指标 体系 ， 如 表 13 -8 所 示 。 
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Ф 13-8 广东 省 专利 发 展 指标 体系 及 权重 
二 级 指标 B 
Bi 发明 专利 授权 量 (0.443 4) 
Bu 实用 新 型 专利 授权 量 (0.144 3) 
B,; 外 观 设计 专利 授权 量 (0. 091 9) 
B, ABRIR iE (0. 222 3) | 
Bs 实 用 新 型 专利 申请 量 (0.058 9) 
Bs 外观 设计 专利 申请 量 (0.039 1) 
B, AU] REDE (0. 497 6) 
及 2 实用 新 型 专利 授权 量 增 速 (0.211 9) 
了 5 外观 设 计 专利 授权 量 增 速 (0.1443) — 
B,, 发 明 专 利 申请 量 增 速 (0. 069 0) 
B,s 实 用 新 型 专利 申请 量 增 速 (0. 046 0) 
Bj 外观 设 计 专 利 申请 量 增 速 (0. 031 2) 
В, 专利 纠纷 案件 受理 (0.279 1) 
B;, 专 利 纠纷 案件 结案 (0. 056 5) 
专利 执法 情况 B; 查 处 假冒 专利 立案 (0.178 3) 
A; By 查处 假冒 专利 结案 (0. 037 4) 

(0. 087 95) B; 查 处 冒充 专利 立案 (0. 172 7) 
| By 查处 冒充 专利 结案 (0. 037 4) 
B; 涉 外 案件 受理 (0.238 6) 


有 了 完整 的 指标 体系 ， 并 给 各 级 指标 赋予 了 一 定 权 重 ， 下 面 就 可 以 对 专利 数据 进行 
全 面 分 析 。 


ААА © © DLL ALL: -Á...-Á...-.........-...-......Á....Á....Á....Á..... = ож == к ж чен чк чш .......Á...áÁ....Á....Á....áÁ....Á....Á......... 


;在 mvstats. xls: 912.3 中 选取 А1: T22 区 域 ,然后 拷贝 
' > data = read. table( " clipboard" ,header - T) #В1 组 数据 


专利 申请 与 授权 量 
А, 
(0. 669 4) 


专利 申请 与 授权 增 速 
A; 


广东 省 知识 产权 运行 情况 (0.242 64) 


` 


:>xl = data[ ,1: 6] #B1 组 数据 
i » x2 = data[ ,7: 12] #B2 组 数据 
| » x3 = data[ ,13: 19] #B3 组 数据 


;>S1 =S_rank(z_data(xl) ,Bl. W) 
!» S2 -S rank(z data(x2) ,B2_W) 
|» S3 -S rank(z data(x3),B3 W) 
! > = cbind( S1 851,52 8$Si,S3 851) 
> S rank(S, A №) 


Si ri 
| 广州 68.31 2 
| 深圳 — 89.38 1 
' 珠海 50. 37 7 


I 
l 
I 
I 
汕头 49. 62 11 
1 
1 
1 
1 
I 
I 


srr 
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草本 一 一 一 


б = alas Á... -..-.-....[.. 1... 1... ш ш в Á... ш ш ш ш ш ш ш ш ш шш = ш .Á.. шшш ш жы ш ш шш ш ы шшш ш эт = ттт т тт т т тт т т тт т ттт т т ҥт= т о тш = ч очюш Ў ч = == = LE LLLI ld] 


综合 评价 的 结果 见 表 13 -9。 


313 -9 广东 省 各 地 区 专利 发 展 综合 评价 结果 


佛山 
40.66 | м 


| ЖЕ 
江 40. 97 


11 
16 
17 


К 
茂 
3 


根据 综合 评价 的 结果 ， 可 以 知道 广东 省 各 市 的 专利 发 展 状况 ， 深 圳 以 其 绝对 的 优势 
高 居 广东 省 各 地 区 的 榜首 。 处 在 第 二 、 三 位 的 分 别 是 广州 和 佛山 。 从 上 面 的 综合 排名 可 
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以 看 出 ， 广 东 省 各 地 区 知识 产权 运行 情况 差异 较 大 。 同 时 根据 各 分 量 指标 ， 可 以 从 授权 
量 、 申 请 量 和 执法 质量 上 了 解 各 市 的 排名 及 实力 。 此 外 ， 通 过 与 以 往年 份 的 比较 ， 可 以 
很 清楚 地 知道 各 市 的 发 展 变化 情况 ， 同 时 知道 影响 各 市 知识 产权 情况 变化 的 因素 及 其 影 
ци Же 


案例 分 析 : 区 域 目 主创 新 能 力 的 层次 分 析 及 R 操作 


随 着 经 济 全 球 化 的 深信， 自主 创新 能 力 和 水 平日 益 成 为 影响 国家 竞争 力 的 重要 因素 。 
提高 自主 创新 能 力 已 经 提升 为 我 国 的 国家 战略 。 本 案例 在 对 前 人 的 理论 研究 的 基础 上 创建 
一 套 新 的 评价 区 域 自 主创 新 能 力 的 指标 体系 ， 运 用 层次 分 析 法 AHP 对 我 国 30 个 地 区 的 
2009 年 区 域 自主 创新 能 力 进行 了 评价 。 通 过 对 我 国 东 、 中 、 西 部 地 区 间 的 比较 ， 得 出 我 国 
区 域 间 自主 创新 能 力 极 不 平衡 ， 并 对 各 区 域 的 自主 创新 建设 和 政策 制定 提出 合理 建议 。 

由 于 我 国 现行 的 区 域 政 策 基 本 上 是 按照 东 、 中 、 西 三 大 地 区 区 别 对 待 ， 东 部 地 区 包 
括 北京 、 和 天津、 河北、 辽宁、 上 海 、 江 苏 、 浙 江 、 福 建 、 山 东 、 广 东 、 广 西 、 海 南 12 个 
省 区 ， 中 部 地 区 包括 山西 、 和 内蒙古、 吉林、 黑龙江、 安徽、 江西、 河南 、 湖 北 、 湖 南 9 
个 省 区 ， 西 部 地 区 包括 四 川 、 重 庆 、 贵 州 、 云 南 、 西 藏 、 陕 西 、 甘 肃 、 宁 夏 、 青 海 、 新 
3& 10 个 省 区 。 同 时 也 针对 我 国 区 域 发展 严 重 不 平衡 的 现状 ， 本 案例 将 我 国 30 个 省 市 自 
治 区 (由 于 西藏 自治 区 的 很 多 数据 缺失 ， 在 研究 中 将 其 忽略 ) 按 以 上 规则 分 东 、 中 、 西 
部 考察 。 另 外 ， 从 目前 的 研究 结果 看 ， 按 照 东 、 中 、 西 三 大 地 区 的 划分 方法 实证 测度 自 
主创 新 能 力 的 研究 几乎 没有 。 故 本 案例 选取 这 一 角度 进行 分 析 ， 以 弥补 这 一 方面 研究 的 
Kk 

一 、 评 价 指标 体系 及 权重 确定 

|. 评价 指标 的 筛选 原则 

(1) 系统 性 。 系 统 性 要 求 评价 指标 体系 要 能 够 充分 反映 区 域 自主 创新 能 力 的 各 个 方 
面 ， 但 又 不 是 杂乱 无 章 地 堆砌 。 要 做 到 这 点 可 以 把 评价 指标 脉络 清晰 地 按照 目标 层 、 准 
则 层 、 指 标 层 多 个 层次 ， 将 各 个 指标 间 的 关系 有 层次 地 表现 出 来 。 在 区 域 自 主创 新 能 力 
这 个 目标 层 下 ， 每 个 准则 层 都 代表 了 自主 创新 能 力 的 一 个 方面 ; 而 每 个 准则 层 下 每 个 指 
标 有 各 自 能 够 代表 自主 创新 能 力 这 个 层面 下 的 各 个 属性 特征 。 

(2) 可 操作 性 。 首 先 ， 各 指标 必须 满足 可 得 性 。 需 要 的 数据 可 以 从 《中 国 统计 年 
鉴 、《 中 国 高 新 技术 产业 统计 年 鉴 》、《 中 国 科 技 统计 年 鉴 》 及 中 华人 民 共 和 国 国 家 统计 
局 网 站 上 直接 获取 或 者 间接 算出 。 其 次 ， 指 标 必 须 是 可 量化 的 。 应 该 尽量 采用 可 以 量化 
的 指标 ， 而 少 用 定性 数据 资料 ， 以 使 所 得 结论 更 具 客 观 性 。 最 后 ， 指 标 数量 过 多 也 会 影 
啊 实 际 评 价 的 操作 性 ， 因 此 要 尽量 简化 。 

(3) 有 效 性 。 有 效 性 是 指 构建 出 来 的 指标 体系 必须 与 所 评价 对 象 的 内 涵 与 结构 相符 , 
能 够 真正 反映 出 某 一 区 域 自主 创新 能 力 的 本 质 特征 。 这 就 必须 对 研究 对 象 作 深入 研究 ， 
了 解 什么 才 是 真正 想 要 测量 的 特质 ， 从 而 得 出 具有 针对 性 和 代表 性 的 指标 。 另 外 ， 要 考 
虑 同一 含义 指标 的 统计 口径 、 时 间 、 地 点 和 适用 范围 ， 少 用 绝对 指标 ， 多 用 相对 指标 ， 
以 保证 统计 指标 的 可 比 性 。 在 实际 选择 时 ， 还 要 用 变 差 系数 剔除 一 些 鉴 别 力 比较 差 的 
指标 。 
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2. 评价 指标 体系 建立 

本 书 参 考 众多 学 者 对 自主 创新 能 力 综合 评价 研究 所 采用 的 评价 指标 体系 ， 并 通过 实 
证 筛选 构建 了 一 个 包括 4 个 评价 模块 、24 个 评价 指标 的 区 域 自主 创新 能 力 评价 指标 体系 ， 
如 表 13 - 10 所 示 。 


表 13 -10 区 域 自主 创新 能 力 评价 指标 体系 


V 


科技 活动 经 费 占 GDP 比重 (% ) | 01555 | 
每 万 人 科技 活动 经 费 (万 元 ) 
| 


= 


每 万 人 研发 人 员 数 (A) 


| 
DWO[WAAWReR UD | O55 | 
CR [WAAERRARE OO — | 9355. 


B 


= 


sanem | ose 
"илиини O) | св 
aranma eo — ИТА 


V, 


自主 创新 
XR BE 7] 
0.148 1 


1 
2 
3 
E 
5 
9 
0 
l 
2 
3 


V 
V 
Y 
V 


чаени > 


Vo | 技术 市 场 成 交 额 占 GDP 比重 (%) 
财政 支出 占 GDP 比重 (%) 
V» | SARC é (THN) | oss _ 
每 万 人 发 表 的 国外 科技 论文 数 〈 篇 ) ， 
Nm 高 新 技术 产业 当年 价 总 产值 ULT) 0.1656 | 
панн [X mwtnearmarsn=uka (ж) | ов _ 


3. 评价 指标 体系 权重 确定 

根据 表 13 -10 将 目标 层 、 准 则 层 、 指 标 层 以 及 措施 层 输入 到 软件 中 ， 建 立 起 递 阶层 
次 结构 模型 ， 并 以 此 为 基础 构造 两 两 比较 判断 矩阵 。 计 算 各 层次 的 权重 如 表 13 - 10 所 
示 。 

目标 层 ( 最 高 层 ) : 自主 创新 能 力 。 
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准则 层 CHEAR): 目 主 创新 投入 能 力 、 自 主创 新 支撑 能 力 、 自 主创 新 管理 能 力 、 自 
主创 新 产 出 能 力 。 

指标 层 (最 低层 ) ° 表 13 -10 中 指标 V, 一 РЁ 

措施 层 : 以 我 国 30 个 省 、 市 、 自 治 区 作为 对 象 。 

相对 于 评价 目标 而 言 ， 各 领域 之 间 相 对 重要 性 比较 见 表 13 - 11, 


表 13 -11 判断 矩阵 4 – B 


е ж жүн 
ЕКОЕ: 
E 
Ss 
КЕНИНЕН 
scr 
s 
= S t | — `. | | — |= 


相对 于 目 主 创新 支撑 能 力 而 言 ， 各 指标 相对 重要 性 比较 见 表 13 - 14. 


表 13 - 13 判断 矩阵 B, - P 


а ЕЕЕ 
相对 于 自主 创新 管理 能 力 而 言 ， 各 指标 相对 重要 性 比较 见 表 13 - 14, 


表 13 -14 判断 矩阵 B, -P 


相对 于 上 自主 创新 产 出 能 力 而 言 ， 各 指标 相对 重要 性 比较 见 表 13 - 15。 


表 13 - 15 判断 矩阵 B, -P 
m [ыа [а | 
二 、 区 域 自主 创新 能 力 的 综合 评价 


关于 区 域 自主 创新 能 力 综合 评价 的 研究 在 近年 来 受到 越 来 越 广泛 的 关注 并 已 逐渐 成 
为 国内 学 术 界 的 一 个 重要 研究 课题 ， 然 而 ， 对 于 如 何 构建 综合 评价 体系 对 区 域 自主 创新 
能 力 合理 全 面 地 进行 反映 并 没有 统一 的 结论 ， 仍 需 更 多 的 理论 研究 和 实践 探索 。 

1. 评价 指标 的 数据 采集 

本 书 采 用 的 数据 有 两 种 来 源 ， 一 是 直接 从 《中 国 统计 年 鉴 》、《 中 国 高 新 技术 产业 统 
计 年 鉴 》、《 中 国 科技 统 计 年 鉴 》 及 中 华人 民 共 和 国 国家 统计 局 网 站 上 得 到 的 2009 年 度 
的 统计 数据 ， 如 Vi 、Vi。、Vi。 、Vis 、Y2 。 二 是 从 年 鉴 上 的 统计 数据 间接 计算 得 到 的 。 具 
体 数据 见 图 13 -4。 
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аш | 
К 
2 | z 
з wm 00 268 149 $7,2 16307 21.8 6 58 259 3 
4] "i 001 3.5 0.51 12464 2054 529 093 155 233 1706 
5, ша 001 513 0:8 107.13 2.35 993, 0.45 20 3.68 1853 
6 ARS 0009 74359 037 14755 962 514 015 1.6090 46 2288 
EB Це 001 1331 1.00 353.09 4983 110 64 з 296 2235 
|з ЖН ооз 6025 04 1178 33 6 1.24 201 2.41 1920 
| 9 ижи ооп 16 068 1532: 198 8 163 2.04 6) 182 
(10| 上 海 0.077 112063 1.38 1077.85 247.39 316 91 ма 1.51 5386 
[пй їй 2009 114 13 58506 24904 22898 643 19 14 2м 
[12 жо 005 эл @94 4167 10677 185 {43 1.91 1.85 3353 
13 SW 007 3948 078 127.53 187 54 L0 173 LG 1 
14 ҹи ov 69 070 23245 7458 104+ 3.88 3 я 2255 
15 GB 009 2302 067 1645 419 45 1.4 1.92 ч 13 
16 ШЖ 0019 64 1.21 441 5527 12.98 96 13 15 9 
17 99 002 3.4 0.63 12878 2068 71 09 1.04 1.5 1346 
18 Wi 0012 44% 082 18491 342 626 LA 1 1.8 14 
19 WE 0013 4623 063 128.85 2015 $04 06 1.8 L87 1406 
20 "Ж 0.039 17483 1.27 518.86 23242 2331 15.93 1.3 138 4305 
1 га 001 372 ом 5&6 1⁄6 i4 0.3 1.4 % 1420 
|22 SW оо: 026 009 1663 124 01 0.3 1.97 2.31 2222 
[23] RÆ 002 ма 08 182.55 27.96 584 пл 17% 1.5 171 
[24 Wi 0008 23499 052 8955 3402 319 1.64 1.12 1.91 1433 
|5 RM 00 ув 045 4678 17.8 0 14 1.24 “6 1226 
126 ZW оо 455 020 2871 $.6 1.53 0.24 1.33 328 1485 
97 陕西 oon 35521 060 1&8 51.73 1 3162 2.36 97 1979 
(28. BM ооз 3$64 0 7614 977 41 0. 61 1.48 3.93 135373 
29 W& опт 878 оз 71.45 933 2860 00 1.61 9 1630 
[30] 宁夏 ош 04 052 11182 1061 519 1.68 2.4 3 1919 
131 WM 0.012 74765 030 (12 29 243 005 пл — 435 2143 
| 32 
н. м^ сазе? / сазе3 / cased / case / сазеб / case? / сазе4 / сазад / case10 / сазе11 / casei? сазе12 
图 13 -4 


2. 评价 指标 的 数据 处 理 | 

由 于 各 指标 值 量 纲 不 同 ， 为 了 消除 因 量 纲 不 同 的 评价 指标 对 评估 结果 的 影响 ， 需 要 
对 数据 进行 无 量 纲 化 处 理 才 能 进行 综合 比较 。 本 书 采 用 效用 值 法 来 进行 处 理 ， 规 定 效用 
值 水 平 范围 是 [0，100] 。 对 正 向 指标 ,，Yy = (У-У) / (Vau, 7 Vai) x60 +40; 对 
逆向 指标 ， Y; = te, hl Z CS x60 +40, 即 当 V, 为 正 效 用 指标 时 ， 该 指标 
值 越 大 ， 其 效用 值 越 高 ， 当 Vi; 为 负 效 用 指标 时 则 相反 。 其 中 ，Y; 表 示 第 i 个 指标 的 第 j 个 
地 区 的 效用 值 ，V; 表 示 第 i 个 指标 的 第 j 个 地 区 的 原始 数据 ，Vi 表 示 样 本 中 第 i 个 指标 
的 最 大 值 ，Vii, 表 示 第 i 个 指标 的 最 小 值 ， 除 Vi。 和 Vi 外 都 是 正 向 指标 。 

根据 层次 总 排序 ， 不 仅 可 以 通过 各 个 指标 的 总 权重 看 出 其 对 于 自主 创新 能 力 的 相对 
重要 性 ， 也 可 以 很 容易 得 到 各 个 省 份 的 得 分 : F = УУ, x V;。 其 中 下 为 自主 创新 投入 能 
力 、 自 主创 新 支撑 能 力 、 自 主创 新 管理 能 力 、 自 主创 新 产 出 能 力 以 及 自主 创新 综合 能 力 
的 评价 值 。W; 为 第 i 个 评价 指标 的 权重 值 ，V. 为 第 i 个 评价 指标 的 效用 值 。 

本 案例 对 东 、 中 、 西 部 区 域 自 主创 新 能 力 进行 比较 ,分 别 对 三 类 地 区 计算 得 分 、 排 
名 以 及 东 、 中 、 西 部 总 水 平 得 分 ， 如 表 13 - 16 所 示 。 从 自主 创新 能 力 综合 得 分 来 看 ， 东 
部 地 区 除 河北 、 广 西 、 海 南 三 个 省 份 外 ， 在 全 国 范围 内 有 绝对 优势 ， 占 据 了 排名 的 前 九 
人 位。 其中， 上海、 北京、 天津、 广东、 江苏 等 省 市 更 是 遥遥 领先 于 中 西部 省 份 。 河 北 、 
广西 、 海 南 三 个 省 份 的 得 分 是 比较 落后 的 ， 是 东部 地 区 里 的 个 别 情 况 。 中 西部 地 区 的 省 、 
市 、 自 治 区 在 得 分 上 普遍 较 低 ， 说 明了 中 西部 地 区 的 自主 创新 能 力 的 水 平 全 面 落后 于 东 
部 地 区 。 


我 国 30 个 省 、 市 、 自 治 区 自主 创新 能 力 二 极 指 标的 得 分 与 排名 见 图 13 - 5 和 表 
13 - 17, 


X6 PETE E 
表 13 -16 我 30 个 省 、 市 、 自 治 区 自主 创新 能 力 综合 能 力 得 分 与 排名 


a е асоае хз R case 13 AREECIR HEN И 
В [.case1Jeread.table("clípboard",headere-T) 


| > $—z dataícase13); > 
> $1«8 rank(£[, 1:7], Wi}; lea stats 
北京 n er = ad Auct, 3, 3,1, 1/3, 1,2, 1/3, 1/3, 1/2, 1, 1/3, 1,3. 3,1) 
хф cen 3 (“I [Weweight (A);W 
Mdb 46.34 21 "B1vc (1,1,1,2,1,1,1, 1, 1, 1, 1/2, 2, 1, 2, 1, 1, 1, 1/2, 1, 2, 2, 
Ш 49.88 13 | 1,2,2,2,1,1,1/2,3,1/2,1,2,1,1/2,1/2,1,1/2,1/2, 
内 蒙古 44.96 24 4 | Wl=veight(81);W1 Í 
av 56.93 8 7B2»c (1,1,1,2,1,1,1,1,1, 172, 2,1,1,1, 1,1, 1, 2, 17/2, 2, Li 
WB 47.06 19 -W2-weight (82) ;W2 
mI 48.76 15 Вэс (1,1,2,2,1,1,1,1,2,2, 1/2, 13,1, 1/2, 1/2, 1/2, 172,2, 
EM 94.95 1 
江苏 72.77 4 
浙江 64.02 € 
XU 49.12 14 


Ш 9 55.20 10 


В 13 -5 


#13-17 我 国 30 个 省 、 市 、 自 治 区 自主 创新 能 力 二 级 指标 的 得 分 与 排名 


排名 | 产 出 能 力 | 排名 
am | ли | s юю | í | sao | в 
жж [жи [э Lana | 3 Las | юте | 3— 
河北 | 4634 | 21 | 4948 | 19 
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本 案例 的 结论 与 人 们 对 于 各 个 地 区 普遍 的 认 知 和 大 多 数 文献 的 研究 结论 相符 合 。 东 
部 是 发 达 地 区 的 沿海 省 、 市 ， 发 展开 放 较 早 ， 相 较 于 内 陆地 区 在 经 济 输出 、 人 才 储 备 和 
资源 配置 等 方面 都 有 着 较 好 的 条 件 ， 形 成 总 体 的 明显 优势 是 合理 的 。 而 中 西部 地 区 的 内 
陆 省 市 相对 来 说 经 济 发 展 和 社会 发 展 水 平 较 低 、 限 制 了 其 自主 创新 能 力 的 提高 。 

3. 结论 与 建议 

创新 之 处 首先 在 于 选择 区 域 自 主创 新 能 力 综合 评价 这 一 近年 来 才 备 受 关注 的 课题 。 
其 次 ， 从 东 、 中 、 西 部 的 角度 分 类 来 考察 我 国 自主 创新 的 发 展 水 平 ， 而 不 是 简单 地 以 30 
个 省 、 市 独立 分 析 。 这 与 我 国 地 区 间 发 展 不 平衡 的 国情 相符 ， 更 容易 为 政策 制定 提供 有 
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针对 性 的 建议 。 最 后 ， 在 分 析 中 运用 AHP 法， 以 R 软件 为 研究 工具 ， 主 客观 相 结合 ， 较 
为 科学 地 确定 各 个 评价 指标 的 权重 。 而 不 足 的 地 方 主要 在 选择 自主 创新 能 力 评价 指标 时 ， 
忽略 了 某 些 定性 指标 ， 或 者 用 代表 性 稍 差 的 指标 将 其 代替 ， 使 其 无 法 达到 最 好 的 评价 效 
果 。 定 性 指标 比较 难 控制 ， 量 化 起 来 可 能 会 有 失 客观 。 今 后 的 研究 中 ， 这 还 需要 进一步 
改善 和 提高 。 

东部 地 区 虽然 相对 内 陆地 区 有 较 大 优势 ， 但 是 其 自主 创新 能 力 相对 于 国外 发 达 国 家 
水 平 ， 仍 有 很 大 的 提升 空间 。 应 该 利用 其 现 有 的 在 经 济 基 础 、 人 才 储 备 、 科 技 发 展 等 方 
面 的 优势 资源 ， 为 自主 创新 的 进一步 深化 提供 强 有 力 保证 。 在 自主 创新 投入 和 产 出 上 继 
续 巩 固 传统 实力 的 同时 ， 也 要 加 强 自主 创新 管理 能 力 的 建设 ， 提 高 自主 创新 效率 。 

中 西部 地 区 在 近 十 来 年 才 开 始 得 到 “西部 大 开发 ” (2000 年 ) 和 “中 部 崛起 ” 
(2004 年 ) 的 政策 优惠 ， 但 长 期 以 来 国家 对 东部 沿海 地 区 的 政策 倾斜 导致 的 差距 很 难 在 
短期 内 缩小 。 如 不 加 以 重视 ， 差 距 甚至 会 越 来 越 大 。 因 此 ， 中 西部 地 区 应 该 要 不 断 模仿 
和 学 习 先 进 地 区 的 经 验 。 由 于 创新 投入 和 产 出 及 自主 创新 支撑 能 力 的 各 项 指标 远 远 落 后 
于 东部 地 区 ,政府 要 有 意识 地 为 西部 地 区 的 企业 创造 良好 的 创新 环境 ， 通 过 政策 法 规 等 
引导 和 扶持 创新 型 企业 的 发 展 。 


案例 分 析 题 
从 给 定 的 题目 出 发 ， 按 内 容 提 要 、 指 标 选 取 、 数 据 搜集 、R 语言 计算 过 程 、 结 果 分 
析 与 评价 等 方面 进行 案例 分 析 。 
1， 对 我 国 各 地 区 经 济 效益 状况 进行 层次 分 析 研 究 。 
对 我 国 31 个 省 、 市 、 自 治 区 农业 发 展 状况 进行 综合 分 析 。 
.应 用 层次 分 析 评 价 2010 年 我 国 31 个 省 、 市 、 自 治 区 经 济 效益 。 
对 2010 年 度 我 国 各 地 区 电信 业 发 展 情 况 进 行 比 较 分 析 。 
对 我 国 31 个 省 、 市 、 自 治 区 的 宏观 经 济 发 展 情况 作出 评价 。 
.考察 我 国 各 省 市 社会 发 展 综合 状况 (以 2010 年 以 后 的 数据 为 据 ) 。 
对 世界 主要 国家 综合 竞争 力 进行 分 析 与 评价 。 


м о шм р ш м 


思考 练习 题 

一 、 思 考题 (手工 解答 ， 上 交 作 业 本 ) 

1. 试 述 综合 评价 的 基本 思想 。 

2. 指出 综合 评价 的 常用 方法 。 

3. 指出 综合 评价 中 指标 体系 的 权重 计算 方法 。 

4. 总 结 综合 评价 的 计算 步骤 。 

5. 试 述 指标 体系 建立 中 的 注意 事项 。 

6. 简要 分 析 多 指标 综合 评价 中 的 权重 问题 。 

7. 指出 综合 评价 中 指标 的 标准 化 方法 及 各 种 方法 的 优 缺 点 。 
8. 比较 本 章 中 的 综合 评价 方法 和 主 成 分 综合 分 析 方法 ， 指 出 各 自 的 优 缺 点 。 
9. 列举 几 种 常用 的 综合 评价 方法 ， 并 指出 其 优 缺 点 。 
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二 、 练 习题 (计算 机 分 析 ， 网 上 交流 或 发 电子 邮件 ) 

. 试 自行 编制 计算 指标 权重 的 R 语言 函数 。 

. 试 自行 编制 计算 一 致 系数 的 R Иги РАЖ 

. 试 自行 编制 进行 数据 标准 化 的 R 语言 销 数 。 

. 试 自行 编制 计算 综合 得 分 的 R 语言 函数 。 

. 互联 网 区 域 发 展 情况 的 综合 评价 。 

在 对 各 地 区 互联 网 发 展 的 优势 和 劣势 研究 后 ， 发 现 中 国 的 互联 网 发 展 存在 地 区 的 不 
均衡 性 ， 但 究竟 在 哪个 地 区 发 展 得 好 、 哪 个 地 区 发 展 得 差 ， 目 前 还 没有 一 个 综合 的 定论 。 
下 面 应 用 综合 评价 方法 对 我 国 互 联网 区 域 发 展 情况 进行 综合 评价 ， 通 过 综合 的 排名 了 解 
不 同 地 区 在 我 国 互联 网 发 展 过 程 中 各 自 处 于 什么 水 平 。 

根据 以 上 建立 中 国 互联 网 区 域 发 展 状况 指标 体系 的 意义 和 构建 指标 体系 所 遵循 的 原 
则 ， 这 里 把 互联 网 区 域 发 展 状 况 各 项 评价 指标 划分 为 三 块 : 互联 网 的 发 展 规模 指标 、 互 
联网 信息 量 指标 、 互 联网 信息 时 效 性 指标 。 具 体 指 标 体系 结构 如 下 图 。 


л > ә мю — 


s 网 民 占 人 口 的 比例 (X, ) 
区 А _ | 拥有 域名 数 (XX,) 

互联 网 的 发 展 规模 指标 拥有 网 站 数 X) 

Ё IPv4 地 址 数 比 例 (Х,) 

况 _「 网 站 平均 网 页 数 ( X.) 

Ë 互联 网 信息 量 指标 | 由 站 平均 字 节 数 (X,) 

i 互联 网 信息 时 效 性 指标 一 一 网 页 平均 更 新 周期 (XS) 

从 2007 年 1 月 的 中 国 互联 网 络 发 展 状况 统计 报告 中 得 到 ， 截 至 2006 年 底 ， 我 国 31 
个 省 、 市 、 自 治 区 的 网 民 率 (X ) 、 拥 有 的 域名 数 (X,). RISE (X), IPv4 地 址 占 全 
国 总 数 的 比例 СХ). 、 网 站 平均 网 页 数 (X;)、 网 站 平均 字 节 数 (X,). 、 网 页 平均 更 新 周 
期 (X,) 的 具体 数据 见 下 表 。 

我 国 31 个 省 、 市 、 自 治 区 互联 网 发 展 指标 数据 表 

地 区 X, X, X, X, X, X, X, 

安徽 0. 06 56 267 11 294 0. 02 6 398. 9 156. 85 107. 74 

北京 0. 30 786 256 149 566 0. 13 7 469. 5 219. 15 131. 76 

福建 0. 15 326 715 43 518 0. 03 3 641.8 94. 57 121. 83 

甘肃 0. 06 13 912 3 684 0.01 8 366. 5 244. 92 128. 72 

广东 0. 20 641028 154 130 0. 10 2 830. 9 75. 46 133. 64 

广西 0.08 37 721 9 370 0.01 3980.4 - 117.95 139. 86 

BUM 0. 04 14 233 4 122 0.01 1 275.3 25.23 136. 34 

海南 0. 14 12 505 2 238 0.01 1 829. 7 34. 00 144. 00 

河北 0. 09 80 758 23 765 0.04 3 867.6 110. 14 133. 99 

河南 0. 06 79 899 15 327 0. 05 8 217. 2 193. 67 133. 54 

黑龙 江 0. 10 42 534 8 353 0. 02 4 604. 1 129. 78 136. 12 

湖北 0. 09 77 361 18 554 0. 03 5 881.3 155. 58 121. 47 


310 @ -多 元 统计 分 析 及 R 语 言 建 术 
(4 EK) 


地 区 
湖南 


= 
Fi 


江西 
lf" 
内 蒙古 
TA 
青海 
山东 
山西 
陕西 
上 海 
四 川 
天 津 
西藏 
新 疆 
云南 
浙江 
重庆 


X, 
0. 06 
0. 10 
0. 14 
0. 07 
0. 11 
0. 07 
0. 07 
0. 07 
0. 12 
0. 11 
0. 11 
0. 29 
0. 08 
0. 25 
0. 06 
0. 08 
0. 06 
0. 20 
0. 08 


X; 

67 009 
32 851 
275 420 
35 878 
106 182 
17 312 
28 241 
2 410 
189 420 
26 598 
55 220 
377 898 
142 390 
54 075 
2 240 
15 217 
30 757 
330 777 
41 235 


X, 
12 447 
7 834 
64 259 
9 751 
25 787 
4 590 
3 409 
835 

37 718 
6 766 
10 867 
78 982 
16 766 
10 800 
756 

2 696 
6 182 
63 749 
8 857 


(1) 应 用 综合 评分 法 进行 综合 评价 。 


(2) 应 用 层次 分 析 方 法 确定 各 指标 的 权重 。 


(3) 应 用 层次 分 析 法 进行 综合 评价 。 


5 539.4 
3 291.6 
3 273.2 
5 255.0 
2 603. 0 
1 832. 5 

827. 8 

795. 2 
4 464. 4 
2 633. 5 
3 050. 2 
8 235. 7 
6 148. 8 


10 508. 7 


219. 6 
5 761.6 
3 115.0 
5 712.5 


13 001. 5 
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14.1 关于 R 语 盲 


14.1.1 什么 是 R 语言 


R 语言 是 一 种 为 统计 计算 和 图 形 显示 而 设计 的 语言 环境 ， 是 贝尔 实验 室 (Bell Labo- 
ratories) 的 Rick Becker, John Chambers 和 Allan Wilks 开发 的 S 语言 的 一 种 实现 ， 提 供 了 
一 系列 统计 和 图 形 显示 工具 。 

R 语言 具有 丰富 的 统计 方法 ， 大 多 数 人 使 用 R 语言 是 因为 其 强大 的 统计 功能 。 不 过 
对 R 语言 比较 准确 的 认识 是 一 个 内 部 包含 了 许多 统计 技术 的 环境 。 部 分 的 统计 功能 整合 
在 R 环境 的 底层 ， 但 是 大 多 数 统 计 功 能 则 以 包 的 形式 提供 。 大 约 有 25 个 包 和 R 同时 发 
布 ， 也 被 称 为 标准 包 ， 如 果 想 得 到 更 多 的 其 他 包 ， 可 以 在 R 的 网 站 上 (http: //www.r- 
project org) 下 载 ， 其 上 还 提供 了 其 他 关于 R 使 用 的 一 些 资料 。 大 多 数 经 典 的 统计 方法 和 
最 新 的 技术 都 可 以 在 R 中 直接 得 到 ， 用 户 只 要 花 点 时 间 去 寻找 就 可 以 了 。 


14.1.2 为 什么 要 用 R 语言 


随 着 计算 机 技术 的 迅速 发 展 ， 现 代 统 计 方 法 解决 问题 能 力 的 深度 和 广度 都 有 了 很 大 
的 拓展 。 而 统计 软件 正 是 我 们 应 用 统计 方法 不 可 或 缺 的 工具 。 统 计 软 件 随 着 计算 机 技术 
和 统计 技术 的 发 展 不 断 扒 陈 出 新 ， 名 目 繁多 ， 各 具 特 色 ,， 令 人 有 无 所 适 从 之 感 。 随 着 全 
球 对 知识 产权 保护 要 求 的 不 断 提高 ， 现 在 的 开放 源 代 码 逐 渐 开 始 形成 一 种 市 场 ，R 语言 
正 是 在 这 个 大 背景 下 发 展 起 来 的 ， 以 S 语言 环境 为 基础 的 R 语言 由 于 其 鲜明 的 特色 ， 一 
推出 就 受到 了 统计 专业 人 士 的 青睐 ， 成 为 国外 大 学 里 标准 的 统计 软件 。 

R 语言 是 属于 GNU 系统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 ， 它 是 一 个 用 于 统计 
计算 和 统计 制图 的 优秀 工具 。 在 目前 保护 知识 产权 的 大 环境 下 ， 开 发 和 利用 R 语言 将 对 
我 国 的 统计 事业 具有 非常 重大 的 现实 意义 。 


14.1.3 R 语言 进行 统计 分 析 的 优势 和 劣势 


1. 优势 

(1) 作为 一 个 免费 的 统计 软件 ， 它 有 UNIX, LINUX, MacOS 和 WINDOWS 版 本 ， 均 
可 免费 下 载 和 使 用 。 

(2) 解决 统计 软件 用 于 统计 学 教学 和 科研 中 存在 的 问题 : 国内 目前 缺乏 适合 开展 统 
计 分 析 教 学 科研 的 统计 分 析 软 件 ，SAS 、SPSS 、S-PLUS 等 统计 软件 ， 由 于 没有 版 权 ， 需 
要 用 昂贵 的 价钱 购买 ， 更 新 很 慢 ， 并 要 大 量 的 维护 费用 ， 许 多 内 容 与 教科 书 设 置 不 完全 
一 致 ， 学 生 和 研究 人 员 使 用 较为 困难 。 

(3) R 是 一 套 完整 的 数据 处 理 、 计 算 和 绘图 软件 系统 。 其 功能 包括 数据 存储 和 处 理 
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系统 ; 数组 运算 工具 (其 向 量 、 和 矩阵 运算 方面 的 功能 尤其 强大 ) ; 完整 连贯 的 统计 分 析 工 
А; 优秀 的 统计 制图 功能 ; 简便 而 强大 的 编程 语言 : 可 操纵 数据 的 输入 和 输出 ， 可 实现 
分 支 、 循 环 ， 用 户 可 自 定义 功能 。 所 以 与 其 说 R 是 一 种 统计 软件 ， 还 不 如 说 R 是 一 种 统 
计 计 算 的 环境 ， 因 为 R 语言 提供 了 大 量 的 统计 程序 ， 使 用 者 只 需 指定 数据 库 和 若干 参数 
便 可 进行 统计 分 析 。R 语言 的 思想 是 : 它 可 以 提供 一 些 集成 的 统计 工具 ,但 更 大 量 的 是 
它 提供 各 种 统计 计算 的 郴 数 ， 从 而 使 使 用 者 能 灵活 地 进行 数据 分 析 ， 甚 至 创造 出 符合 需 
要 的 新 的 统计 计算 方法 。 

2. 5% 

R 语言 的 灵活 性 也 是 一 把 “ 双 刃 侠 ”， 即 需要 我 们 通过 编程 方式 来 进行 统计 分 析 。 到 
目前 为 止 R 语言 还 缺少 一 个 像 S-PLUS 、SPSS 那样 的 菜单 界面 ， 这 对 那些 没有 编程 经 验 
和 对 统计 方法 掌握 不 是 很 好 的 使 用 者 是 一 大 挑战 ， 也 是 妨碍 其 在 一 般 人 群 中 推广 的 一 大 
障碍 。 

3. 如 何 发 挥 R 语言 的 优势 和 克服 其 劣势 

由 于 R 语言 具有 强大 的 编程 计算 功能 和 丰富 的 附加 包 ， 使 其 进行 科学 研究 极其 方便 ， 
需要 哪 方 面 的 统计 分 析 ， 只 要 调用 其 相应 包 即 可 。R 语言 目前 最 大 的 问题 是 其 数据 管理 
问题 ， 因 为 没有 好 用 的 数据 管理 器 ， 其 自 带 的 数据 管理 器 很 不 方便 ， 所 以 我 们 认为 要 用 
好 R 软件 ， 就 是 按 本 书 中 介绍 的 那样 ， 将 R 语言 跟 Excel 充分 结合 ， 发 挥 两 者 的 优点 ， 
这 样 就 可 以 做 到 事半功倍 。 


14.2 R 语言 软件 的 下 载 与 安装 


R 语言 是 属于 CNU 系统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 ， 是 一 个 用 于 统计 计 
Ж, 、 数 据 分 析 和 统计 制图 的 优秀 工具 。 

作为 一 个 免费 的 统计 软件 ， 它 有 UNIX, LINUX, MacOS 和 WINDOWS 版 本 ， 均 可 免 
费 下 载 和 使 用 。R 的 官方 网 站 是 http://www. r - project. org。 在 官方 网 站 可 以 下 载 到 R 
的 安装 程序 、 各 种 外 挂 程序 和 文档 。 在 R 的 安装 程序 中 只 包含 了 8 个 基础 模块 ， 其 他 外 
在 模块 可 以 通过 CRAN (http: //cran. r — project. org). 获得 。 
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R 语言 下 载 


бо ws couapuling wd gapisca h cossphrs amd num on a vide variety of LONTX Po Windows and MacOS 
Te pinaso choose vow perfesred 
(0 09 H vou have questions about K ike bow o dosnload and install the sofware, or whai the Rcense cras arc. please sead our para 1o frann: akad 
тн before ve sem an raad 


—————— ———————— 


News: 


R version 2.13.1 has been released on 2011:07-08. The source code ù fg mahabo in fi 全 NI and eventually via ай of CRAN йашзез wil 
ql 


29 
. «Eire wowded (сто iot (ox Е текс) e the (ирок. Sua A Code 2011 
e = НАЙ, vates uin or a nak. CURED ОЕ. ари ИНИ, 2011 - 
# ашар PEP EET ¿ss EE aia аыйл ыйла i i P 


Mew features m ths version: Windows specc, a platforms. 


V vou want to double «heck dus бе package yos bue dowajoaded exaci matches Фе package distributed by R, vou can compare фе cdi mam o( fu. exe io 
бе tror feit Y cu will eed a version of md eum fx windows: both graphical and avt renale 


Frequently asked questions 
~ Hen olana sia waq Wakmi Vs o. 
* ен [nn ЫЫ or 54 ba E? 
кзз see tbe ЕАО for pnma information sbon P. and бе R ео FAQ for Wakay specdic information 
Other builds 
* Patches to (his release are isconparsted in tbe сосе sumpt bild 
+ А bald of Ge developcaent чест (which will evoctualty become фе next major release of KO и valable є e c dee мир! tudd 


Мова to webmaster: A table kuk whoch will redwect to the cornea Windows binary release i 
RAN MIRROR pa wide beoe t eot hun 


Lau change. 2011-07-08, by Duncan Murdoch 


14.2.2 R 语言 安装 
点 击 下 载 的 R -2. 13. 1 — win. = кни 


DS 313 
k 


314 


T v 3 Dm Ti Te 3 
a cry VOR de torpet nido MÓN AS 
ОР 57: Turri PE Ea: 
У < Uk А11 ` Pide 15 E 
Е c 973 B ERU 26 BD IN T 572-4 


当 你 准备 好 继续 安装 后 ， 请 单 击 “ 下 一 步 ”。 


GNU GENERAL PUBLIC LICENSE 
Version 2, June 1991 


Copyright (C) 1989, 1991 Free Software Foundation, Inc. 

51 Franklin St, Fifth Floor, Boston, WA 
02110-1301 USA 
Everyone is permitted to copy and distribute verbatim copies 
of this license document, but changing it is not allowed. 


Preamble 


The licenses for most software are designed to take away your 


选择 目标 位 置 
将 R for Windows 2.13.1 安装 到 哪里 ? 


一 一 ~ 一- -一 ~ 一 一 一 


JL 安装 向 导 将 把 R tor Windows 2.13.1 安装 到 以 下 文件 夹 中 。 


若 要 继续 ， 单 击 “ 下 一 步 ”。 如 果 你 要 选择 不 同 的 文件 夹 ， 请 单 击 “浏览 ”。 


Ж 


至 少 需要 1.2 ив 的 空闲 磁盘 空间 。 


一 -一 一 -一 一 一 -一 -一 一 一 一 一 一 一 -一 一 一 一 -一 一 -一 一 一 -一 一 一 一 - 


择 组 件 
要 安装 哪些 组 件 ? 


请 选择 你 要 安装 的 组 件 ， 清 除 你 不 想 安 装 的 组 件 。 准 备 好 后 点 击 “ 下 一 步 ”。 


` 


v 1386 Files 

W'HTNL Manuals 
On-line PDF Manuals 

= 


юр то ро т е ро 00 
IET IE ЕЕЕ ЕЕ 
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”如 果 是 第 一 次 安装 R 语言 ， 建 议 大 家 选择 默认 安装 ， 即 全 部 点 击 “ 下 一 步 (N) >” 
按钮 即 可 。 


14.3 R 语 言 包 及 其 函数 


所 有 的 R 语言 函数 和 数据 集 都 是 保存 在 包 (packages) 里 面 的 。 只 有 当 一 个 包 被 载 
入 时 ， 它 的 内 容 才 可 以 被 访问 。 这 样 做 一 是 为 了 高 效 (完整 的 列表 会 耗 去 大 量 的 内 存 并 
且 增 加 搜索 的 时 间 ) ， 二 是 为 了 帮助 包 的 开发 者 防止 命名 时 和 其 他 代码 中 的 名 字 冲 突 。 

本 书 所 用 数据 、 程 序 和 包 可 向 作 者 Rstat@ 126. com 索取 ， 也 可 到 作者 网 站 http: // 
202. 116. 0. 146/Rstat/mvstats. rar 上 下 载 。 


14.3.1 R 语言 标准 包 


标准 (基本 ) 包 构 成 R 源 代码 的 一 个 重要 部 分 。 它 们 包括 允许 R 工作 的 基本 了 晴 数 和 
本 文档 中 描述 的 数据 集 、 标 准 统计 和 图 形 工具 。 在 任何 R 的 安装 版 本 中 ， 它 们 都 会 被 自 
动 获 得 。 下 面 的 标准 包 在 R 语言 安装 后 自动 载 人 ,常用 的 R 语言 标准 包 及 其 用 途 见 表 


тт =т==ттт=т т т= т т отт т отот т ож тт тот чт = = -...-...Á.-.......-. © өш ж = == = = шу ж о өш єє шш ш ш шь ЫЫ шы в „в шы в в шы ш ш шш ...-...-...-...-....-...-...-...-...-...-......... 


[1] ". GlobalEnv" " package : stats" " package : graphics" 
1 


标准 包 简单 说 明 


R 对 象 的 一 般 定义 方法 和 类 ， 增 加 一 些 编程 工具 
基本 R 语言 本 


ТТТ 


这 里 ，GClobalEnv 为 全 局 变量 ，Autoloads 为 自动 调用 函数 。 每 个 包 中 都 包含 大 量 的 
РАЖ. 


14.3.2 R 语言 扩展 包 


(1) 扩展 包 : 全 世界 有 许多 作者 为 R 捐献 了 成 百 上 千 的 R 语言 扩展 包 ， 都 可 以 从 
http; //www. r – project. org/ 免 费 下 载 。 目 前 已 有 3 129 个 包 可 供 下 载 使 用 。 
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€ э Qu fi S t oc ocdbco 
Ф The Comprehersi. - MEE 


+ fú ^ HER а ^ 


Contributed Packages 
Installation ef Packages 

CRAN 
What s p? 
Task ет 
жас 

tR 
R 
The R Jamal 


Plesee type help (ИАЛ) or belp( install. packages”) in R for information on how to install packages from this directory. The 
menus] K Inatallation end Administration (also contained in the В base sources) explains the process in detail. 


CRAN Task Views allow you to browse packages by topic and provide tools to sutowatically install all packages for special 
areas of interest. Currently, 28 views are available. 


Daily Package Check Resulte 


М1 packages mre tested regularly on mechines running ебі ао ОМ]. гада, г инни Packages аге also checked under 
NacOS X and Windom, but typically only wt the day the peckags appears on CAM. 


The results are summarired in the check тангу (some timinawg are also available). Additional details for Windows checking 
— and building can be found in the Windoms chock sey 


Writing Your Own Packagns 
(also contained in the R base sources) explains how to write new psckages and how to 


E Sources 
f Binaries 
[айым The mapoal Wriilng В Éxtenaions 
От contribute them to CRAH. 
Document at 1 on — m 
Macon à Avnilable leckages 

HOT] 
Contributed 


Darrently, the CRAN package repository features 3129 availsble peckages. 
ARCDEEGSELIIRLERNQPSRBSIUYSTEAIL 


кл, ACC & LEA Graph Plorting 

T Test Moderson-Darling Cof test 

An Interpretation of the ADE method - automated detection algorithm 
МС Analysis of ästa from aCGH experiments 

ME Applied Econometrics with R 

море PBatimation in edeptive group sequential] trials 

Мото dava Jodel selection and maltimodel inference based on (ОАТС (с) 
AIGIS Areal Interpoletion for GIS data 

и АТЕЙ: sisptive index model 

AS multivariate curve resolution alternating least aquares (NCR-ALS) 
aM Anderson-Noore Algoritta 

MICRE 


A NONE flexible neural network package 
Açcsptancessepling Creation and evaluation of Acceptance Sampling Plans 
àit Maptive Mizture of Student-t distribetions 
ма. AMdeptive Seniparmmetic Regression 
Аат тетт Statistical Tools for Neaeuring Agreement - 


(2) 下 载 扩展 包 : 点 击 上 图 所 显示 的 包 名 ( 旭 AER) ， 进 入 包 的 下 载 界 面 

点 击 下 载 包 : AER. 1. 1 -8. ар (Windows 用 户 使 用 的 二 进 制 包 Windows binary) 。 

(3) 安装 下 载 包 从 菜单 的 【程序 包 】 一 一 【从 本 地 zip 文件 安装 程序 包 】 

(4) 载 人 程序 包 : 从 菜单 的 【程序 包 】 一 一 【加 载 程序 包 】 或 在 命令 行 用 library 
(АЕК). 

注意 : 安装 程序 包 和 载 人 程序 包 是 两 个 概念 ， 安 装 程序 包 是 指 将 需要 的 程序 包 安 装 
到 R 语言 系统 中 ,但 此 时 包 中 的 函数 还 不 能 用 ， 还 需 将 包 载 人 R 语言 环境 中 ， 这 些 都 可 
以 在 R 语言 界面 的 主 菜 单 “ 程 序 包 ”中 实现 。 


Da ~ .RR а ^ 


qi The Comprehensi. - 

AER: Applied Econometrice with R 
Functions, desta sets, exseples, demos, and vignettes for the book yr Kleiber and Achim Zeileis (2008), Applied 
Éccoometrics with К, Springer-Verlag, Mew York. ISBN 978-0-397-T7316-2. (See the vignette for a package overview.) 
Version: — 1.1-8 

cun Depends: А (2 2.5.0), state, car C» 2.0-U, Formula (> 0.2-0), latest, amodwish  s'rucshanam. sevival, zoq 
Imports: stats 

War s neri Suggests: boot, als tffesie fortia ines Nenieosth lattice MASS mlorit elec dott a pis peil quetres 

Таак Vien ЮСТ, sawle$election, scatterplo!2d4 яуалсаб 1, cal tUwocret taeries wrie 
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14.3.3 ” 书 中 使 用 的 R 语言 包 及 其 函数 
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关于 这 些 函 数 的 详细 用 法 可 用 命令 “?” (Ek help), ， 如 线性 模型 Im 的 用 法 如 下 : 
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additional agpunerts to be passed 10 the low level regression Sting functions (er below) 


Details 


Modeh for in are specited symbolicaly А typical modei has the form response - terms where response 6 the (mameri) response vector and verms is а senes of terme which specifies a linear 
predictor for response А terum specification of the foem firat < second indicates ай фе terms in ficos togeier with ай the terme in весов with duplicates removed. A speclicamos of the foem 
first:seeonas indicates tbe set of terms obtned by talcisg the imeracton of ali terms m £1: 5t with ай temas in second The specification tir st*secona пике фе cross of 2:z2c and secona This 
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14.3.4 Ha R 语言 包 及 其 函数 


为 了 方便 大 家 学 习 本 书 及 用 R 语言 进行 多 元 统计 分 析 ， 我 们 在 书 中 自 编 了 一 些 К ië 
言 亲 数 辅助 进行 多 元 统计 分 析 ， 下 面 列 出 这 些 男 数 所 在 章节 及 其 用 途 。 
该 包 的 名 称 为 mvstats ， 可 回 作 者 Rstat@ 126. com 索取 。 
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